판다곰에서 데이터 조작에 있어 자주 사용하는 과정을 요약한다.
멀티 인덱스 부분은 엑셀 작업이 편한 경우가 많지만, 정기적인 리포팅이 필요하다면 고민할 여지가 없다.
1. 자료 샘플
>> df
월별 | 태그 | 출금액 | 입금액 | |
0
|
201501
|
관리비 |
275190
|
0
|
1
|
201501
|
교통비 |
106650
|
0
|
2
|
201501
|
기타 |
20300
|
180
|
20
|
201502
|
관리비 |
284180
|
0
|
21
|
201502
|
교통비 |
97650
|
0
|
22
|
201502
|
기타 |
93600
|
548
|
2. 피봇팅(Pivotting)
>> df.pivot_table(index='태그',columns='월별',values=['출금액','입금액'])
출금액 | 입금액 | |||
월별 |
201501
|
201502
|
201501
|
201502
|
태그 | ||||
관리비 |
275190
|
284180
|
0
|
0
|
교통비 |
106650
|
97650
|
0
|
0
|
기타 |
20300
|
93600
|
180
|
548
|
3. 멀티 인덱스 컬럼 레벨 순서 바꾸기
>> df.columns = df.columns.swaplevel(0, 1)
월별 |
201501
|
201502
|
201501
|
201502
|
출금액 | 출금액 | 입금액 | 입금액 | |
태그 | ||||
관리비 |
275190
|
284180
|
0
|
0
|
교통비 |
106650
|
97650
|
0
|
0
|
기타 |
20300
|
93600
|
180
|
548
|
4. 컬럼 레벨 소팅 작업
>> df.sortlevel(0, axis=1, inplace=True)
월별 |
201501
|
201502
|
||
출금액 | 입금액 | 출금액 | 입금액 | |
태그 | ||||
관리비 |
275190
|
0
|
284180
|
0
|
교통비 |
106650
|
0
|
97650
|
0
|
기타 |
20300
|
180
|
93600
|
548
|
5. 컬럼 미세 조정 하기
>> df.columns = pd.MultiIndex(levels=[['201501', '201502'], ['출금액', '입금액']],
labels=[[0, 0, 1, 1], [0, 1, 0, 1]],
names=['월별', '구분'])
월별 |
201501
|
201502
|
||
구분 | 출금액 | 입금액 | 출금액 | 입금액 |
태그 | ||||
관리비 |
275190
|
0
|
284180
|
0
|
교통비 |
106650
|
0
|
97650
|
0
|
기타 |
20300
|
180
|
93600
|
548
|
0 개의 댓글:
댓글 쓰기