6장 파이썬 pandas와 R의 dplyr | Notion

Python pandas 패키지

pandas 패키지

데이터를 저장하고 이를 쉽게 탐색, 분석 처리할 수 있는 방법을 제공하는 패키지
- Series 클래스: numpy의 array를 확장한 클래스
  
  (각 원수가 이름을 갖는 1차원 혼합 자료형 배열)
- DataFrame 클래스: 크기가 같은 여러 개의 Series로 이루어진 클래스
  
  (각각의 Series를 열로 갖는 2차원 배열, 행이름과 열이름이 있는 크기 변경이 가능한 테이블 구조의 배열)
사용방법

# pandas 패키지를 약어(pd)를 사용하여 임포트(import)
import pandas as pd
# Series, DataFrame 클래스 임포트(import)
from pandas import Series, DataFrame

s = pd.Series( [10,20,30], index=['a','b','c'])
s

df = pd.DataFrame(s,columns=["A"])
df

Series와 DataFrame에 to_numpy 매소드를 적용하여, 넘파이의 array 클래스로 바꿀 수 있다.

import numpy as np

s.to_numpy()
np.array([10, 20, 30], dtype = 'int64')

df.to_numpy()
np.array([[10],
       [20],
       [30]], dtype = 'int64')
       
s.to_numpy().shape
df.to_numpy().shape

s.index
df.index

# df의 열이름 확인
df.columns

딕셔너리(dictionary) 자료를 DataFrame으로 변환

d = {'one':Series([1,2], index=['a','b']),
		 'two': Series([1,2,3],index=['a','b','c'])}
df = pd.DataFrame(d)
df

numpy의 2차원 행렬을 DataFrame으로 변경

import numpy as np

x = np.arange(4).reshape((2,2))
df = pd.DataFrame(x)

# df의 열이름, 행이름 지정
df.columns = ["A","B"]
df.index = [11,12]
df

Series 자료의 이용

Series 자료의 index에는 “이름 인덱스”와 “위치 인덱스”가 있음.
- 이름 인덱스: Series 자료를 생성할 때 index를 지정하여, 각 원소의 이름을 지정할 수 있음
- 위치 인덱스: 인덱스를 지정하지 않는 경우, 각 원소의 위치 순서가 자동으로 할당

s1 = pd.Series([1.0,2,3])
sa = pd.Series([1.0,2,3], index=['a','b','c'])
sc = pd.Series([0.0,1,2], index=['a','b','d'])
sn = pd.Series([1,2,1,3,3,5,3,4])

s1
s1-2
sa
sc

sac = sa + sc
# sa와 sc는 서로 이름 인덱스가 달라, 정상적으로 합이 이루어 지지 않음

sac.isnull()

sac.notnull()

sac.fillna(-1.0)

sx = sac.dropna()
sx

sy = pd.concat([sx, sc[:2]])
sy

sy.drop('a')

그외 Series 메소드
- head( ): Seires 앞쪽 일부를 제시
- tail( ): Seires 뒷쪽 일부를 제시
- unique( ): Series 값들이 중복되는 경우, 하나로 바꿔줌
- nunique( ): unique 메소드에서 얻어지는 Series의 길이를 계산
- describe( ): Series 값들에 대한 기본적인 통계량을 계산
- replace( ): 특정 값을 다른 값으로 대체
```
sn

sn.describe()

list(sn.unique())

sn.nunique()

sn.replace([1,2],0)
```

DataFrame 자료의 이용