1.2. 통계학#
1.2.1. 분석과 예측#
이제 데이터를 이용하는 목적을 생각해 봅시다. 앞에서 데이터를 분석한다고 했는데 일단 분석을 왜 할까요? 또 분석은 무슨 의미일까요? 일단 분석의 의미를 정확하고 명료하게 설명할 수는 없다면 왜 분석하는지 생각해 봅시다.
많은 분야에서 데이터를 분석하는 가장 궁극적인 목적은 **예측(prediction)**입니다. 예를 들어 우리는 기상청에서 아주 많는 기상 자료를 분석하고 있는 사실을 알고 있습니다. 왜 분석할까요? 가장 중요한 목적은 일기 예보이며 예보의 의미는 예측입니다.
이 과목에서 여러분은 예측을 수행하기 위한 분석의 기초를 배울 것입니다. 분석은 예측하려는 변수(y)와 이에 영향을 미치는 변수들(x)의 인과관계를 **모형(models)**으로 만드는 작업입니다. 우리가 흔히 다음과 같은 식으로 모형을 표현합니다.
예측은 실제 결과와 틀릴 수도 있습니다. 어떤 예측은 아주 잘 맞을 수도 있습니다. 예를 들어 요즘은 대부분의 주차장에서 차량번호를 인식하는 장치를 사용하는데 기본적으로 번호판을 디지털 데이터로 만들어서 차량의 번호를 예측하는 컴퓨터 프로그램을 이용합니다. 내일 비가 얼마나 어디에 올지는 어려운 예측이지만 태풍의 경로와 강도에 대한 예측은 상당히 정확합니다. 기상청도 우리가 여러 매체에서 보았듯이 방대한 기상 자료를 슈퍼컴퓨터로 분석하여 예측을 수행합니다.
우리는 이 과목에서 통계학을 통하여 예측에 사용될 수 있는 모형을 만드는 기초적인 방법을 배우고 더 나아가서 예측의 불확실성에 대한 기초적인 주제를 다룰 것입니다.
1.2.2. 빅데이터와 데이터 과학#
최근에는 과거와 비교할 수 없는 양의 자료가 저장되고 있습니다. 빅데이터에 대한 기술과 연구는 여러 측면에서 다양한 주제로 접근할 수 있습니다. 기술적으로 데이터가 너무 커서 하나의 저장공간에 저장하거나 처리할 수 없는 경우 이를 해결할 방법을 연구하는 것도 중요한 주제입니다. 아마존과 네이버의 기술자들은 이러한 빅데이터의 저장과 처리 기술에 대하여 고민할 것입니다.
우리는 이 과목에서 빅데이터를 데이터 과학자의 측면에서 볼 것입니다. 데이터 과학은 앞에서 언급한 데이터를 이용하여 예측하는 방법을 연구하는 분야입니다. 따라서 빅데이터도 다른 작은 데이터와 같이 예측을 위한 도구로 생각할 것입니다. 우리가 이 과목에서 배우는 데이터의 처리 기술과 모형을 통한 예측 방법은 빅데이터를 포함한 모든 데이터에 적용할 수 있는 기초입니다.