[Pandas] 여러가지 통계량(평균, 분산, 중앙값 등) 구하기
반갑습니다~ 꽁냥이 입니다. Pandas에서는 각종 통계량 값을 계산해주는 강력한 기능을 제공합니다. 이번 포스팅에서는 Pandas에서 평균, 분산, 중앙값과 같은 여러 가지 통계량을 계산해보는 방법을 소개합니다. 바로 코드를 통해서 알아보도록 하지요. Pandas 통계량 계산하기 먼저 데이터를 만들어줍니다. import pandas as pd df = pd.DataFrame() df['키'] = [170, 144, 156, 177, 181, 188, 181, 161] df['체중'] = [55, 52, 60, 77, 65, 89, 90, 60] 이제 각종 통계량을 계산하는 방법을 소개하겠습니다. 설명은 주석을 참고하세요. df['키'].mean() # 평균 df['키'].median() # 중앙값 = ..
2022. 5. 20.
[Numpy] 결측치(NaN, missing)를 포함한 두 배열의 상관계수(correlation) 구하기 (with ma.corrcoef)
안녕하세요?! 꽁냥이입니다. 데이터 분석을 하다 보면 두 배열의 상관 계수를 구할 때가 종종 있지요. 하지만 배열 속에 결측치(NaN, missing)를 포함하고 있다면 상관 계수를 계산할 수 없을 때가 있습니다. 예를 들어 아래와 같이 결측치(NaN, missing)를 포함한 두 배열이 있다고 해볼게요. import numpy as np a = np.array([np.nan, np.nan, 1, 2, 3]) b = np.array([np.nan, np.nan, 10, 14, 16]) 이 경우 np.nan를 자동적으로 제거하고 [1, 2, 3]과 [10, 14, 16]의 상관계수를 구하고 싶을 것입니다. 하지만 실제로 numpy.corrcoef를 이용하여 상관계수를 구하면 NaN값이 출력됩니다. impo..
2022. 5. 12.