Merge¶
- Merge Docs를 보면 데이터베이스의 Join 처럼 columns과 indexes을 사용하여 DataFrame을 Merge한다고 정의되어 있음
- 기본 메소드 형태는 pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True,suffixes=('_x', '_y'), copy=True, indicator=False)
- 중요 인자를 보면
- left, right :Merge의 대상이 되는 DataFrame( Series면 DataFrame으로 변환해야 함)
- how:기본은 'inner'로 되어 있고. left, right, outer를 선택할 수 있음
- on :merge의 기준이 되는 key변수, left와 right에 동일 컬럼명 있을 경우 사용(Must be found in both DataFrames)
- left_on, right_on: 왼쪽, 오른쪽 각각 merge의 기준이 되는 key변수. (label or list)
- left_index, right_index:기본으로 False이며 True이면 Merege 키로 사
- suffixes=('_x', '_y'):중복 컬럼시 접두어를 선택할 수 있음.
- indicator = Merge된 DataFrame에 how에 따른 left_only, right_only, both의 출처를 표시.
Continue reading 18_Merge
Continue reading 17 Concat
Continue reading 16 Sort
MultiIndex¶
- MultiIndex는 A multi-level, or hierarchical, index object로 정의된다.MultiIndex Docs
- MultiIndex 중요 세요소로는
- levels : 계층에 대한 이름(The unique labels for each level)
- labels : 각 이름별 계층 위치 (Integers for each level designating which label at each location)
- names : 레벨에 대한 이름( Names for each of the index levels.)
- MultiIndex 생성하는 메소드는 다음과 같음
- from_arrays(arrays[, sortorder, names])
- from_tuples(tuples[, sortorder, names])
- from_product(iterables[, sortorder, names])
- unstack()을 사용하여 columns을 index의 변경하여 MultiIndex를 생성할 수 있음 .
Continue reading 15 MultiIndex
Index, Column조작¶
- Pandas에서는 Index와 Columns이 객체이므로 객체 안에 중요한 정보를 다루기 위한 메소드들이 존재함
- 대표적인 방법들 정리해 보면
- reset_index: index를 columns의 하나로 변형시키고 0부터 n-1 까지 새로운 index를 추가
- set_index: reset_index와는 반대로 columns 중에 하나를 index로 변경
- drop([row]) : index의 row를 삭제함
- drop([col], axis=1): 컬럼을 삭제
- df[df.name != 'Tina']: 특정컬럼의 조건 로우만 삭제
- 컬럼이름 변경: df.rename
- 컬럼 Slicing을 통한 DataFrame내 컬럼 내 위치변경
Continue reading 14 Index, Column Method