본문 바로가기

데이터 분석/데이터 전처리56

[Pandas] 22. Transform을 이용하여 그룹별 통계값으로 결측치 대체하기 안녕하세요~ 꽁냥이입니다. 데이터 분석을 하다 보면 결측치를 자주 만나게 됩니다. 데이터 분석가라면 이를 제거할지 대체할지 그리고 대체한다면 어떤 값으로 대체할지 선택하는 것은 굉장히 중요한 문제이지요. 만약 결측치를 특정값으로 대체한다고 해볼게요. 이때 데이터가 그룹(또는 범주)이 있다면 그룹별 통계값으로 결측값을 대체하는 것도 생각해봐야할 것입니다. 왜냐하면 그룹별 특성을 반영하여 결측치를 대체하는 것이 합리적이기 때문이지요. 이번 포스팅에서는 그룹별 통계값으로 결측치를 대체하는 방법에 대해서 알아보겠습니다. 결측치 처리에 대한 일반적인 내용은 지난 포스팅에서 다루었으니 참고하시면 되겠습니다. 여기서 다루는 내용은 다음과 같습니다. 1. 데이터 만들기 2. 그룹별 통계값 확인 3. 결측치 대체 1. .. 2022. 4. 3.
[Numpy] 4. 통계량 구하기 안녕하세요~ 꽁냥이에요. 이번 포스팅에서는 꽁냥이가 자주 쓰는 통계량을 구해주는 Numpy 함수들을 소개하려고 합니다. 아래 테이블에 함수를 소개했고 테이블에서 data는 1차원 배열로 이루어진 데이터를 의미합니다. 실제 사용법은 코드를 참고해주세요. 1. 대표값 평균 np.mean(data) 중앙값 np.median(data) 최빈값 np.bincount(data).argmax() 제 1 사분위수 np.quantile(data, 0.25) 제 2 사분위수 np.quantile(data, 0.5) 제 3 사분위수 np.quantile(data, 0.75) 2. 최대, 최소 최대값 np.max(data) 최소값 np.min(data) 3. 산포 통계량 표본 표준편차(자유도)(*) np.std(data, d.. 2021. 10. 29.
[Numpy] 3. 배열 연산(Operation) 반갑습니다~ 꽁냥이입니다~!! 저번 포스팅에서는 Numpy 배열의 Slicing 방법을 알아보았는데요. [Numpy] 2. Numpy 배열 Slicing [Numpy] 2. Numpy 배열 Slicing 안녕하세요~ 꽁냥이에요. 요즘 Numpy에 대한 글을 포스팅하고 있는데요. [Numpy] 1. Numpy 배열 생성하기 [Numpy] 1. Numpy 배열 생성하기 안녕하세요~ 꽁냥이에요. Numpy 모듈은 배열의 조작 및 연산에 최적 zephyrus1111.tistory.com 이번 포스팅에서는 배열의 연산에 대해서 알아보겠습니다. 여기서 다루는 내용은 다음과 같습니다. 1. 사칙 연산 및 행렬 곱 2. 삽입, 삭제, 수정, 결합 1. 사칙 연산 및 행렬 곱 1.1 사칙 연산 먼저 배열 간 사칙 연산에.. 2021. 9. 21.
[Numpy] 1. Numpy 배열 생성하기 안녕하세요~ 꽁냥이에요. Numpy 모듈은 배열의 조작 및 연산에 최적화되어 있을 뿐만 아니라 각종 통계량 계산, 결측값 처리 그리고 집계 등 데이터 전처리&분석과 관련된 유용한 기능을 제공합니다. 따라서 데이터 분석과 관련된 여러가지 유용한 Numpy 기능과 예제를 소개하려고 합니다. 이번 포스팅에서는 배열 생성에 대한 내용을 다루려고 합니다. 여기서 다루는 내용은 다음과 같습니다. 1. 기본 2. 특수 배열 생성하기 1 기본 배열을 생성하는 기본적인 방법은 array를 이용하는 방법입니다. array에는 리스트나 튜플 객체를 인자로 받습니다. 아래 코드는 원소가 3개인 1차원 배열을 생성합니다. a = np.array([1,2,3]) ## 또는 np.array((1,2,3)) Numpy는 1차원뿐만 .. 2021. 9. 20.
[Pandas] 21. 칼럼에 특정 값을 채워 넣기(칼럼 수정하기) 오랜만이에요~ 요즘 회사일이 바빠서 오랜만에 포스팅하네요. 이번 포스팅에서는 Pandas 데이터프레임에서 특정 칼럼의 값을 다른 값으로 채워 넣는 방법을 알아보려고 합니다. 이 부분은 Null 또는 결측값을 다른 값으로 대체할 때, 칼럼 데이터를 수정할 때 많이 사용합니다. 여기서는 아래의 내용을 다루고자합니다. 1. 결측값을 다른 값으로 채워 넣기 2. 특정 값을 다른 값으로 채워 넣기 1. 결측값을 다른 값으로 채워 넣기 1) 결측값을 하나의 값으로 대체하기 먼저 데이터프레임에서 결측치를 대체하는 방법에 대해서는 여기에 자세히 포스팅해두었으니 참고하세요~ 여기서는 특정 칼럼의 결측치를 다른 값으로 채워 넣는 방법을 알아보려고 합니다. 먼저 이번 포스팅에서 사용할 데이터를 만들어 줍니다. import .. 2021. 7. 3.
[Pandas] 20. Pandas Combine을 이용하여 데이터 업데이트/덮어쓰기 안녕하세요~ 꽁냥이에요. 데이터를 전처리할 때 기존 데이터를 다른 데이터로 업데이트해야 할 때가 있지요. 예를 들면 두 데이터가 있다고 했을 때 둘 중 작은 값으로 업데이트하는 것처럼요. Pandas에서는 combine을 사용하여 데이터를 업데이트할 수 있어요. 이번 포스팅에서는 combine 함수 사용법에 대해서 알아보려고 합니다. Combine 함수 사용법 1. 데이터 업데이트 먼저 Pandas를 임포트하고 데이터프레임 두 개를 만들어줍시다~ import pandas as pd df1 = pd.DataFrame({'A': [5, 0], 'B': [2, 4]}) df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]}) 이제 combine 함수의 사용법은 다음과 같이 업데이트할.. 2021. 6. 16.
[Pandas Tip] 1. Pandas Tip 안녕하세요~ 꽁냥이에요. Pandas의 데이터프레임(DataFrame)은 엑셀과 비슷한 기능을 제공합니다. 셀 안에 막대그래프를 넣는 것, 소수점 자리수 조절, 칼럼 숨기기 등과 같은 것처럼 말이죠. 이번 포스팅에서는 이러한 기능을 소개하려고 합니다. 여기서 다루는 내용은 다음과 같아요. 1. 데이터프레임(DataFrame)에 바 차트 넣기 2. 소수점 자리수 조절하여 표시하기 3. 칼럼 숨기기 1. 데이터프레임(DataFrame)에 바 차트 넣기 엑셀에서 셀 안에 막대 그래프(또는 바 차트)를 넣는 것처럼 데이터프레임에도 셀 안에 바 차트를 넣을 수 있습니다. 먼저 이번 포스팅에서 필요한 Pandas와 Numpy를 임포트해줍니다. import pandas as pd import numpy as np 다.. 2021. 5. 27.
[Pandas] 19. concat vs append 성능 차이 알아보기 안녕하세요~ 꽁냥이에요. 칼럼이 같은 여러 개 데이터프레임을 세로로 결합할 때 concat 또는 append를 많이 쓰지요. append는 세로로만 결합할 수 있지만 concat는 가로, 세로 모두 결합할 수 있지요. 하지만 이외에도 concat 함수가 더 빠르다는 것을 알고 있나요? 이번 포스팅에서는 append와 concat의 성능 차이를 알아보겠습니다. 여기서 다루는 내용은 다음과 같습니다. 1. append vs concat 2. concat 제대로 활용하기 append vs concat 먼저 필요한 모듈을 임포트하고 여기서 사용할 데이터 생성 함수를 정의해줍니다. import pandas as pd import numpy as np from tqdm import tqdm def generate_.. 2021. 5. 20.
[Pandas] 18. 두 날짜 사이의 날짜 생성하기. 안녕하세요~ 꽁냥이에요. 시계열 데이터를 다루다 보면 날짜에 대한 정보가 없어서 이를 생성해줘야 할 때가 종종 있는데요. 예를 들어 미국 아이오와주 더뷰크(Dubuque) 도시의 1964년 1월부터 1975년 12월까지 온도를 나타내는 데이터가 있다고 해보죠. 이때 데이터 안에 온도는 나왔지만 날짜가 없는 경우에는 날짜를 생성해줘야 되겠지요. 이번 포스팅에서는 Pandas를 이용하여 두 날짜 사이의 날짜를 생성하는 방법에 대해서 알아보겠습니다. 여기서 다루는 내용은 다음과 같습니다. 1. 두 날짜 사이의 날짜 생성하기 2. 응용하기 1. 두 날짜 사이의 날짜 생성하기 날짜 생성은 Pandas에서 제공하는 date_range를 이용하면 됩니다. 사용법은 다음과 같습니다. date_range( start='.. 2021. 2. 22.
[Pandas] 17. 범주형 데이터 가변수/더미 변수(dummy variable)로 바꾸기 안녕하세요~ 꽁냥이에요. 회귀 모형을 적합할 때 범주형 변수를 더미 변수로 바꾸어주는데요. Pandas에서는 범주형 변수를 더미 변수로 바꾸어주는 get_dummies함수를 제공합니다. 이번 포스팅에서는 Pandas를 이용하여 범주형 변수를 가변수로 바꿔보는 방법에 대해서 소개합니다. 여기서는 가변수, 더미 변수 혼용했습니다. 둘 다 같은 뜻입니다. get_dummies 함수의 기본적인 사용법은 다음과 같습니다. get_dummies(데이터프레임, columns = [칼럼명1, 칼럼명2, . . . ] , . . ) get_dummies의 첫 번째 인자에는 가변수로 바꾸어줄 데이터를 넣어줍니다. 그리고 columns에는 가변수로 바꿔줄 범주형 칼럼 이름을 넣어줍니다. columns를 따로 지정해주지 않으.. 2021. 1. 19.

맨 위로