[Pandas] 27. 문자열 데이터 다루기(공백 제거, 슬라이싱, 문자 대체, 분리, 문자 연결) (feat. strip, slice, split, replace, cat)
안녕하세요~ 꽁냥이에요. 지난 포스팅에서 특정 문자열, 단어를 포함하는 행 추출하는 방법에 대해서 소개했는데요. Pandas에서는 이외에도 문자열을 위한 여러 가지 기능을 제공하고 있습니다. 이번 포스팅에서는 Pandas에서 제공하는 문자열을 다루는 여러 기능을 소개합니다. - 목차 - 1. 공백 제거 2. 슬라이싱 3. 문자 대체 및 분리 4. 문자 연결 1. 공백 제거 파이썬에는 공백제거를 위한 내장 함수로 strip, rstrip, lstrip이 있는데요. Pandas에서도 똑같습니다. 아래 코드를 보면 금방 이해되실 거예요. import pandas as pd df = pd.DataFrame() df['A'] = ['서울', '서울', '경기'] df['B'] = [' 꽁냥이', '꽁냥이 ', '..
2022. 5. 27.
[Pandas] 여러가지 통계량(평균, 분산, 중앙값 등) 구하기
반갑습니다~ 꽁냥이 입니다. Pandas에서는 각종 통계량 값을 계산해주는 강력한 기능을 제공합니다. 이번 포스팅에서는 Pandas에서 평균, 분산, 중앙값과 같은 여러 가지 통계량을 계산해보는 방법을 소개합니다. 바로 코드를 통해서 알아보도록 하지요. Pandas 통계량 계산하기 먼저 데이터를 만들어줍니다. import pandas as pd df = pd.DataFrame() df['키'] = [170, 144, 156, 177, 181, 188, 181, 161] df['체중'] = [55, 52, 60, 77, 65, 89, 90, 60] 이제 각종 통계량을 계산하는 방법을 소개하겠습니다. 설명은 주석을 참고하세요. df['키'].mean() # 평균 df['키'].median() # 중앙값 = ..
2022. 5. 20.
[Numpy] 결측치(NaN, missing)를 포함한 두 배열의 상관계수(correlation) 구하기 (with ma.corrcoef)
안녕하세요?! 꽁냥이입니다. 데이터 분석을 하다 보면 두 배열의 상관 계수를 구할 때가 종종 있지요. 하지만 배열 속에 결측치(NaN, missing)를 포함하고 있다면 상관 계수를 계산할 수 없을 때가 있습니다. 예를 들어 아래와 같이 결측치(NaN, missing)를 포함한 두 배열이 있다고 해볼게요. import numpy as np a = np.array([np.nan, np.nan, 1, 2, 3]) b = np.array([np.nan, np.nan, 10, 14, 16]) 이 경우 np.nan를 자동적으로 제거하고 [1, 2, 3]과 [10, 14, 16]의 상관계수를 구하고 싶을 것입니다. 하지만 실제로 numpy.corrcoef를 이용하여 상관계수를 구하면 NaN값이 출력됩니다. impo..
2022. 5. 12.
[Pandas] 23. 데이터 유일(유니크, unique)값과 개수 구하기
안녕하세요~ 꽁냥이입니다. 이번 포스팅에서는 Pandas에서 칼럼이 갖고 있는 유일(유니크, unique)한 값과 그 개수를 얻는 방법에 대해서 소개하려고 합니다. 1. 데이터 만들기 2. 하나의 칼럼 속 데이터 유일(유니크, unique)값과 개수 3. 데이터프레임에서 칼럼 별 데이터 유일(유니크, unique) 값의 개수 1. 데이터 만들기 먼저 이번 포스팅에서 사용할 데이터를 만들어 줄 거예요. import pandas as pd import numpy as np df = pd.DataFrame() df['A'] = [1, 2, 3, np.nan, 7, 7] df['B'] = ['b', 'b', 'b', 'c', np.nan, 'd'] 2. 하나의 칼럼 속 데이터 유일(유니크, unique) 값과 ..
2022. 4. 7.