반갑습니다~ 꽁냥이 입니다.
Pandas에서는 각종 통계량 값을 계산해주는 강력한 기능을 제공합니다. 이번 포스팅에서는 Pandas에서 평균, 분산, 중앙값과 같은 여러 가지 통계량을 계산해보는 방법을 소개합니다.
바로 코드를 통해서 알아보도록 하지요.
Pandas 통계량 계산하기
먼저 데이터를 만들어줍니다.
import pandas as pd
df = pd.DataFrame()
df['키'] = [170, 144, 156, 177, 181, 188, 181, 161]
df['체중'] = [55, 52, 60, 77, 65, 89, 90, 60]
이제 각종 통계량을 계산하는 방법을 소개하겠습니다. 설명은 주석을 참고하세요.
df['키'].mean() # 평균
df['키'].median() # 중앙값 = df['키'].quantile(0.5)
df['키'].mode() # 최빈값
df['키'].std() # 표준 편차
df['키'].var() # 표본 분산
df['키'].sum() # 합계
df['키'].min() # 최소값
df['키'].max() # 최대값
df['키'].max()-df['키'].min() # 범위
df['키'].nunique() # 유니크한 원소 개수
df['키'].quantile(0.25) # 제 1 사분위수
df['키'].quantile(0.75) # 제 2 사분위수
df['키'].quantile(0.75) - df['키'].quantile(0.25) # 사분위 범위
df['키'].kurtosis() # 첨도
df['키'].skew() # 왜도
df['키'].cov(df['체중']) # 공분산
df['키'].corr(df['체중']) # 상관계수
이번 포스팅은 사실 꽁냥이가 Pandas로 각종 통계량 구하는 법을 까먹을까 봐 적어놓은 것입니다만 여러분들도 분명 도움되실 거예요 ㅎㅎ; 지금까지 꽁냥이의 글 읽어주셔서 감사합니다. 안녕히 계세요.
'데이터 분석 > 데이터 전처리' 카테고리의 다른 글
[Pandas Tip] 엑셀(Excel) 행과 열 고정하여 저장하기 (feat freeze_panes) (2) | 2022.09.29 |
---|---|
[Pandas] 27. 문자열 데이터 다루기(공백 제거, 슬라이싱, 문자 대체, 분리, 문자 연결) (feat. strip, slice, split, replace, cat) (385) | 2022.05.27 |
[Pandas] 26. shift를 이용하여 칼럼 값이 바뀌는 지점(행) 찾기 (400) | 2022.05.20 |
[Numpy] 결측치(NaN, missing)를 포함한 두 배열의 상관계수(correlation) 구하기 (with ma.corrcoef) (378) | 2022.05.12 |
[Pandas] 26. 단순 이동 평균 계산하기 feat. rolling.mean() (410) | 2022.05.11 |
댓글