13 Apply Method

Apply 함수

  • Apply 메소드는 DataFrame의 rows 나 columns(즉 1차원 어레이)을 인풋으로 하여 집합(그룹함수)를 처리할 수 있게 해 준다. Apply docs. 참조
    • 기본적으로 DataFrame의 축의 방향에 따라서 함수에 적용되는 인풋이 결정됨(즉. 열이나 행을 파라미터 값을 전달)(Applies function along input axis of DataFrame.)
    • 아웃풋은 적용되는 함수(집합함수)에 결정됨( Return type depends on whether passed function aggregates)
    • 참고로 R의 경우에는 apply() 함수는 배열 또는 행렬에 주어진 함수를 적용한 뒤 그 결과를 벡터, 배열 또는 리스트로 반환

Continue reading 13 Apply Method

12 MissingValue

Missing Data

  • Pandas에는 Database에서 Null과 유사한 NaN이 존재함.

    • NaN은 Not a number라는 의미로, numpy에서의 개념이지만
    • Pandas에서는 존재할 수도 있지만 측정이 되지 않는 값임(not present for whatever reason missing value)
    • pandas에서는 NaN을 숫자형에 가깝게 인식함, 참고로 oracle의 경우 컬럼에 null이 있으면 숫자형으로 정의할 수 있음.
    • ' ' 이 Null에 더 가까운 개념임.
  • NaN을 조회하는 메소드로는

    • isnull(), notnull()
    • isnull().values.any()
  • NaN을 처리하는 메소드로는
    • dropna(), fillna()

Continue reading 12 MissingValue

11 Date_Time

날짜 자료형

  • Pandads에서는 날짜 자료형을 표현하기 위해서 파이썬의 datetime 모듈, numpy의 datetime64과 timedelta64을 사용한다.
  • 파이썬의 datetime (datetime Docs ) 모듈안에는 다음과 같은 객체 자료형이 존재한다.

    • datetime.date: 년월일을 저장하고 관련 메소드를 제공
    • datetime.time: 시분초를 저장하고 관련 메소드를 제공
    • datetime.datetime:date와 time을 동시에 저장하고 관련 메소드를 제공
    • datetime.timedelta: 두 datetime 간의 차이를 표현
  • datetime을 문자로 변환할때는 str, strftime 메소드를 반대로 문자를 strptime메소드를 사용하여 datetime 형으로 변환할 수 있다.

Continue reading 11 Date_Time

10_문자함수

문자함수

  • Pandas에는 DataFrame에서는 직접 문자함수를 사용할 수 는 없고 Series로 변환후 문자 함수를 적용 할 수 있음.
  • Series.str docs를 보면 Series.str 메소드을 사용하여 Series와 Index에 python의 문자열 함수를 사용할 수 있음 (Vectorized string functions for Series and Index)

  • 대표적인 메소들들은 다음과 같다.

    • str.len(): 문자의 길이를 반환
    • str[]: slicing을 적용(sql의 subsring 처럼 사용할 수 있음)
    • str.split(): 구분자에 의해 문자열을 분해
    • str.cat(): 문장열을 연결
    • str.get(): 위치에 따라 요소를 반환
    • str.replace(): 문자를 서로 치환
    • str.contains() : 문자가 포함 되어 있는지 boolean array를 반환
    • str.find(): 찾는 문자가 있으면 위치를 반환

Continue reading 10_문자함수

09_숫자함수

숫자함수

  • Pandas는 데이터 컬럼 내에(데이터 개별 요소) 숫자함수를 적용할 수도 있고 컬럼(columns)간, 로우(row)간에도 숫자함수를 적용할 수 있다.
  • 자주 사용되는 숫자함수는 다음과 같다.

    • +, -. *, / : 같은 사치역산
    • mod : 나머지 구하기(%)
    • abs : 절대값
    • round : 소수점 특정 자릿수에서 반올림하기.
  • Pandas는 numpy의 범용함수를 지원한다.

    • np.power
    • np.sqauare
    • np.log
    • np.exp
    • np.sign

Continue reading 09_숫자함수

Pagination


© 2017. All rights reserved.

Powered by ZooFighter v0.12