
# Pandas 데이터프레임 연습 1

이 노트는 데이터프레임의 연산과 요약에 대한 예제이니 자유롭게 코드를 실행시키면서 연습해 보세요.



In [1]:
import pandas as pd
import numpy as np

다음과 같이 간단한 데이터프레임을 만들어 보자



In [2]:
df = pd.DataFrame( {
    'x1' : ["A","A","B","B"],
    'x2' : [1,2,3,4],
    'x3' : [1,2,1,2],
    'x4' : [4,3,2,1] 
})

In [3]:
df

Unnamed: 0,x1,x2,x3,x4
0,A,1,1,4
1,A,2,2,3
2,B,3,1,2
3,B,4,2,1


## 열을 이용한 연산

다음 3개의 표현식은 두 열 `x3` 와 `x4` 에서 같은 행에 있는 데이터를  더하는 동일한 작업을 수행한다.


In [4]:
df["x3"] + df["x4"]

0    5
1    5
2    3
3    3
dtype: int64

In [5]:
df.x3 + df.x4

0    5
1    5
2    3
3    3
dtype: int64

In [6]:
df[['x3','x4']].sum(axis=1)

0    5
1    5
2    3
3    3
dtype: int64

여러 개의 열로 사칙연산을 다음과 같이 적용하면 어떤 결과가 나오는지 생각해 봅시다.

In [7]:
df["x2"] * df["x3"] * df["x4"] 

0     4
1    12
2     6
3     8
dtype: int64

In [8]:
df["x2"] * df["x3"]  +  df["x4"] 

0    5
1    7
2    5
3    9
dtype: int64

In [9]:
df["x2"]**2 +  df["x3"] *  df["x4"] 

0     5
1    10
2    11
3    18
dtype: int64

## 열의 요약

데이터프레임에 적용되는 메소드에 `axis=0` 이라고 지정하면 각 **열에 속한 모든 행의 자료**들에 대하여 메소드가 적용된다.

In [10]:
df

Unnamed: 0,x1,x2,x3,x4
0,A,1,1,4
1,A,2,2,3
2,B,3,1,2
3,B,4,2,1


In [11]:
df.sum(axis=0) # 열에 속한 모든 원소의 합 - 열 x1 의 합이 왜 AAAABBB 일까요? 

x1    AABB
x2      10
x3       6
x4      10
dtype: object

In [12]:
"A"+"A"+"B"+"B"

'AABB'

In [13]:
df.mean(axis=0) # 열에 속한 모든 원소의 평균 - 평균은 문자로 구성된 열에는 자동적으로 적용되지 않습니다. 

x2    2.5
x3    1.5
x4    2.5
dtype: float64

In [14]:
df.mean()  # axis= 값을 지정하지 않으면 디폴트(default)는 axis=0

x2    2.5
x3    1.5
x4    2.5
dtype: float64

In [15]:
df.min(axis=0) # 각 열의 최소값 - 문자도 크기를 비교할 있다( "A" < "B" )

x1    A
x2    1
x3    1
x4    1
dtype: object

In [16]:
df.std(axis=0) #  각 열 의 표준편차 - 문자로 구성된 열에는 자동적으로 적용되지 않습니다. 

x2    1.290994
x3    0.577350
x4    1.290994
dtype: float64

In [17]:
df.describe() # 문자로 구성된 열은 통계량이 지동적으로 나오지 않습니다.

Unnamed: 0,x2,x3,x4
count,4.0,4.0,4.0
mean,2.5,1.5,2.5
std,1.290994,0.57735,1.290994
min,1.0,1.0,1.0
25%,1.75,1.0,1.75
50%,2.5,1.5,2.5
75%,3.25,2.0,3.25
max,4.0,2.0,4.0


하나의 열만 선택하면 데이터프레임이 시리즈(Series)로 변하기 때문에 메소드를 적용하면 결과에 열이름이 나타나지 않는다.

In [18]:
df["x2"]

0    1
1    2
2    3
3    4
Name: x2, dtype: int64

In [19]:
df["x2"].mean() # 

2.5


## 행의 요약

데이터프레임에 적용되는 메소드에 `axis=1` 이라고 지정하면 **각 행에 속한 모든 열의 자료들**에 대하여 메소드가 적용된다.

In [20]:
df

Unnamed: 0,x1,x2,x3,x4
0,A,1,1,4
1,A,2,2,3
2,B,3,1,2
3,B,4,2,1


In [21]:
df.sum(axis=1) # 각 행의 합 (문자를 포함한 행이 자동적으로 제거된다.)

0    6
1    7
2    6
3    7
dtype: int64

In [22]:
df.min(axis=1)  # 최소값을 계산할 때도 문자가 자동적으로 제거된다.

0    1
1    2
2    1
3    1
dtype: int64

In [23]:
df.mean(axis=1) # 각 행의 평균

0    2.000000
1    2.333333
2    2.000000
3    2.333333
dtype: float64

## 안전한 프로그래밍

데이터프레임에 대한 다양한 계산에서 특정한 메소드는 연산이 적용될 수 없는 열과 행을 자동적으로 제거하고 적용된다.  

예를 들어 아래에서 `mean()` 은 자동적으로 문자로 구성된 열을 자동적으로 제외하고 적용된다. 


In [24]:
df

Unnamed: 0,x1,x2,x3,x4
0,A,1,1,4
1,A,2,2,3
2,B,3,1,2
3,B,4,2,1


In [25]:
df.mean(axis=0)

x2    2.5
x3    1.5
x4    2.5
dtype: float64

`df.mean(axis=0)` 은 다음과 같이 숫자로 나타난 열만 선택하여 평균을 구해주는 표현식과 같은 결과를 준다.

In [26]:
df[["x2", "x3", "x4"]].mean(axis=0)

x2    2.5
x3    1.5
x4    2.5
dtype: float64

반면  어떤 메소드는 오류가 발생한다. 또한 메소드를 숮차적으로 적용하는 경우 예상치 못한 결과가 발생하는 경우가 있다.


따라서 메소드를 이용하는 작업의 의도에 맞게 적용하여는 자료의 형식을 가진 열과 행을 먼저 선택하여 적용하는 것이 좋다. 

이러한 **안전한 프로그래밍**은 오류나 예기치 않는 결과를 방지해 줄 수 있다. 


예를 들어서 데이터프레임에서 
 1. 각 열의 자료에 대한 합을 구해고 
 2. 그 합들의 최소값을 찾는다고 하자.

In [27]:
df.sum(axis=0)

x1    AABB
x2      10
x3       6
x4      10
dtype: object

표현식 `df.sum(axis=0)`의 결과가 문자열과 숫자가 같이 나타나므로 메소드 `min()` 을 적용하면 오류가 나타난다.

In [28]:
df.sum(axis=0).min()  # 문자로 구성된 열에 의해 의도하지 않은 결과 

TypeError: '>=' not supported between instances of 'numpy.ndarray' and 'str'

메소드 `select_dtypes(include=['number'])` 는 자료의 형식이 `number` 인  열만 선택해 준다.

자료의 형식 `number` 는 숫자로 된 모든 형식을 포함하는 **상위 형식(super type)**이다. 즉 `int` 와 `float` 등 수를 나타내는 모든 자료의 형식의 포함하는 자료 형식이다. 
`number`는 정수 형식 `int` 와 부동소수점 형식 `float` 의 부모(parent)라고 할 수 있다.

메소드 `select_dtypes(include=['number'])` 로 숫자로 된 열만 선택하면 안전하게 최소값을 구할 수 있다. 

In [29]:
df.select_dtypes(include=['number'])  # 숫자로 된 열만 선택 

Unnamed: 0,x2,x3,x4
0,1,1,4
1,2,2,3
2,3,1,2
3,4,2,1


In [30]:
df.select_dtypes(include=['number']).sum(axis=0).min()  # OK!

6

## `inplace=True` 의 이용

In [31]:
df2 = pd.DataFrame( {
    'x1' : ["A","C","D","B"],
    'x2' : [1,2,3,4]})

In [32]:
df2

Unnamed: 0,x1,x2
0,A,1
1,C,2
2,D,3
3,B,4


In [33]:
df2.sort_values(by='x1')

Unnamed: 0,x1,x2
0,A,1
3,B,4
1,C,2
2,D,3


In [43]:
df2 # df2의 자료는 그대로 

Unnamed: 0,x1,x2
0,A,1
1,C,2
2,D,3
3,B,4


In [44]:
df2_copy = df2.sort_values(by='x1')

In [36]:
df2_copy

Unnamed: 0,x1,x2
0,A,1
3,B,4
1,C,2
2,D,3


In [37]:
df2.sort_values(by='x1', inplace=True)

In [38]:
df2

Unnamed: 0,x1,x2
0,A,1
3,B,4
1,C,2
2,D,3


`inplace=True` 를 사용하면 적용된 데이터프레임의 자료가 변경된다. 하지만 아래와 같이 `inplace=True` 를 적용한 결과를  다른 데이터플임에 저장할 수 없다.

In [39]:
df3 = df2.sort_values(by='x2', inplace=True)

In [40]:
df3

In [41]:
type(df3)

NoneType

In [42]:
df2

Unnamed: 0,x1,x2
0,A,1
1,C,2
2,D,3
3,B,4
