4. 데이터프레임#

컴퓨터를 이용해서 자료를 처리하고 분석할 때 가장 많이 사용하는 형식은 MS EXCEL 의 스프레드 시트와 유사한 dataframe 형식이다.

dataframe 형식은 아래와 같은 특징을 가지고 있다.

  • 행(row, 로우)은 전체 자료에서 하나의 구성 요소(entry, recored, unit)에 대한 데이터들로 이루어 진다.

  • 열(column, 컬럼)로 전체 자료에서 하나의 특성을 나타내는 데이터로 이루어 진다. 열은 같은 형식의 자료들로서 구성된다.

  • 각 행과 열은 이를 지칭하는 인덱스(index) 을 가지고 있으며 인덱스는 숫자 또는 문자로 정의된다.

    • 열을 나타내는 문자로 된 인덱스는 보통 열이름(column name) 이라고 부른다.

dataframe

데이터프레임은 pandas 라이브러리를 통해서 사용할 수 있다. 데이터프레임을 사용하는 경우 초기에 다음과 같이 pandas 라이브러리를 불러 주어야 한다.

import pandas as pd

pandas 라이브러리의 dataframe에 대한 기초적인 내용은 pandas 홈페이지의 데이터프레임 시작하기 에 있으니 참고하자.