본문 바로가기

데이터 분석/데이터 전처리56

[Pandas] 16. apply 함수 사용법 알아보기. 안녕하세요~ 꽁냥이에요. 데이터 전처리를 하다 보면 특정 열을 변환해야 할 때가 있지요. 예를 들어 회귀 모형을 구축할 때 설명 변수를 log 함수를 이용하여 변환하는 것처럼 말이죠. Pandas에서는 데이터 변환을 쉽게 해주는 강력한 기능을 제공하는데요. 그건 바로 이번 포스팅에서 다룰 apply 함수입니다. 여기서 다루는 내용은 다음과 같습니다. 1. apply 함수 기본 사용법 2. apply 함수 응용 - 특정 열과 행에 함수 적용하기 - 인자를 받는 함수 적용하기 - 특정 조건에 맞는 행에 함수 적용하기 1. apply 함수 기본 사용법 먼저 이번 포스팅에서 필요한 모듈을 임포트합니다. import numpy as np import pandas as pd 다음으로 예제용 데이터를 만들어줍니다. .. 2021. 1. 19.
[Pandas] 15. 결측치(Missing Value) 처리하기 안녕하세요~ 꽁냥이에요. 대부분의 데이터는 꽉 채워져 있는 것이 아닌 빈 데이터가 포함되어 있지요. 이러한 빈 데이터를 결측치라고 합니다. 데이터 분석자는 이러한 결측치를 제거하거나 대체하는 등 적절한 처리를 해야 합니다. 따라서 이번 포스팅에서는 결측치(또는 결측값)를 처리하는 방법에 대해서 소개하려고 합니다. 여기서 다루는 결측치는 빈 문자열, None, NaN 총 3가지이며 이번 포스팅에서 다루는 내용은 다음과 같습니다(None과 NaN에 대한 설명은 여기를 참고하세요). 1. 결측치 확인 2. 결측치 대체 3. 결측치 제거 1. 결측치 확인 먼저 이번 포스팅에서 사용할 데이터를 만들어봅시다. import pandas as pd import numpy as np data = { 'Fruit' : [.. 2020. 12. 2.
[Pandas] 14. 데이터 그룹별로 집계하기 안녕하세요~ 꽁냥이에요. 데이터를 분석하다 보면 그룹별로 집계하여 데이터를 요약해야 할 일이 많이 있지요. 예를 들면 성별 평균 키를 계산하는 것처럼요. 이번 포스팅에서는 Pandas를 이용하여 그룹별로 각종 통계값을 계산하는 방법에 대해서 소개하려고 합니다. 여기서 다루는 내용은 다음과 같습니다. 1. 데이터 그룹별 집계하기 2. 데이터 그룹별 각종 통계값 동시에 계산하기 3. 데이터 그룹별 두개 이상의 칼럼에 대하여 집계하기 1. 데이터 그룹별 집계하기 먼저 이번 포스팅에서 사용할 샘플 데이터를 다운받아주세요. 다운받으셨다면 필요한 모듈을 임포트하고 데이터를 불러와주세요. import pandas as pd df = pd.read_csv('sample.csv', encoding='cp949') ## .. 2020. 11. 24.
[Pandas] 13. 날짜를 이용하여 데이터 조회하기 안녕하세요~ 꽁냥이에요. 데이터는 시간에 따라서 발생하는 경우가 많지요. 따라서 데이터 속에는 언제 생성되었는지 알려주는 시간 또는 날짜 정보가 포함되어 있지요. 이에 따라 날짜 정보를 이용하여 특정 데이터를 조회하거나 그룹으로 묶어주는 경우가 많이 있어요. 이번 포스팅에서는 날짜를 이용하여 데이터를 조회하고 데이터를 그룹화 방법에 대해서 알아보겠습니다. 여기서 다루는 내용은 다음과 같습니다. 1. 특정 요일에 해당하는 데이터 조회하기 2. 특정 날짜에 해당하는 데이터 조회하기 3. 특정 날짜 범위에 해당하는 데이터 조회하기 4. 그룹화하기 1. 특정 요일에 해당하는 데이터 조회하기 먼저 이번 포스팅에서 사용할 데이터를 다운받아주세요. 해당 데이터는 1981년부터 1990년까지의 오스트레일리아 멜버른 평.. 2020. 11. 21.
[Pandas] 12. 행 추가/삭제하기 안녕하세요~ 꽁냥이에요. 이번 포스팅은 Pandas에서 새로운 행 데이터를 데이터프레임에 추가, 삭제하는 방법에 대해서 알아보려고 합니다. 1. Pandas 행 추가하기 2. Pandas 행 삭제하기 1. Pandas 행 추가하기 먼저 예제용 데이터를 만들어줄게요. import pandas as pd data = { '이름' : ['꽁냥이','옹냥이'], '나이' : [22, 16], '키' : [183, 181] } df = pd.DataFrame(data) ## 데이터 꽁냥이는 아래의 데이터를 추가할 거예요. 아이린, 26, 160 Pandas에서는 행 삽입하는 여러가지 기능을 제공하고 있습니다. 여기서는 위의 행 데이터를 삽입하는 방법 3가지를 소개합니다. concat 이용하기 append 이용하기.. 2020. 9. 30.
[Pandas] 11. 데이터프레임 셀 스타일 변경하기 안녕하세요~ 꽁냥이에요. Pandas로 데이터 분석을 하다 보면 특정 위치 또는 특정 조건에 맞는 셀의 배경색을 바꿔서 알아보기 쉽게 할 필요가 있는데요. 이번 포스팅에서는 Pandas 데이터프레임에서 셀 배경색을 바꿔보는 법에 대해서 알아보겠습니다. 셀 배경색 바꾸기 이번 포스팅에서 사용할 데이터를 생성합니다. import pandas as pd import numpy as np np.random.seed(24) df = pd.DataFrame({'A': np.linspace(1, 10, 10)}) df = pd.concat([df, pd.DataFrame(np.random.randn(10, 4), columns=list('BCDE'))], axis=1) df.iloc[3, 3] = np.nan df... 2020. 9. 27.
[Pandas] 10. 열/칼럼 이름 바꾸기 안녕하세요~ 꽁냥이에요!! 데이터 분석을 하다 보면 열(칼럼) 이름이 복잡하거나 이해하기 어려워 이를 분석자가 이해하기 쉽게 바꿔야 할 때가 있어요. 이번 포스팅에서는 Pandas 데이터프래임에서 열(칼럼) 이름을 바꾸는 방법에 대해서 알아볼게요. 1. Pandas 데이터프래임 특정 열(칼럼) 이름 바꾸기 2. Pandas 데이터프래임 전체 열(칼럼) 이름 바꾸기 1. Pandas 데이터프래임 특정 열(칼럼) 이름 바꾸기 먼저 데이터를 준비합니다. import pandas as pd ## 데이터 준비 data = { 'Hero':['Jack','Michael','Jim','Mengsk'], 'Age':[21,33,45,56] } df = pd.DataFrame(data) 칼럼 이름을 바꾸기 위해서는 기존.. 2020. 9. 14.
[Pandas] 9. 데이터 결합(Join)하기 안녕하세요~~ 꽁냥이에요!! 데이터 분석을 하다 보면 두 개 이상의 데이터를 다루어야 할 때가 많은데요. 두 데이터에 공통으로 포함하지 않은 열(Column)이 있을 때에는 이를 합쳐서 보고 싶을 거예요. 왜냐하면 두 데이터를 결합하여 하나의 데이터로 만들어주어야 데이터 분석이 더 용이해질 테니까요. 이번 포스팅에서는 Pandas 데이터 프래임들을 결합하는 방법에 대해서 소개하려고 합니다. 1. 세로로 결합하기 2. 가로로 결합하기 1. 세로로 결합하기 세로로 결합한다는 뜻은 행과 행이 더해진다는 뜻이에요. 아래 그림처럼 말이죠. 먼저 세로로 결합하기 위한 데이터를 준비해볼게요. import pandas as pd ## 데이터 준비 data1 = { 'A':['apple','banana'], 'B':[1.. 2020. 9. 13.
[Pandas] 8. 랜덤으로 행 추출하기 안녕하세요~ 꽁냥이에요!! 이번 포스팅에서는 데이터(행)를 랜덤으로 추출하는 방법에 대해서 알아볼 거예요. 1. 기본 2. 응용 1. 기본 이번 포스팅에서 사용할 데이터를 먼저 준비할게요. import pandas as pd ## 데이터 준비 data = { 'A':['apple','grape','pear','banana','orange'], 'B':[12,13,5,2,22] } df = pd.DataFrame(data) pandas에서는 sample이라는 함수를 이용하여 데이터를 랜덤으로 추출할 수 있어요. sample 함수의 기본 사용법은 아래와 같아요. df.sample( n = '추출할 데이터 개수', frac = '추출할 데이터 비율', replace = True (복원), False (비복원).. 2020. 9. 12.
[Pandas] 7. 열 추가/삭제하기 안녕하세요~~ 꽁냥이에요! 데이터를 다루다 보면 기존 데이터에 열을 추가하거나 필요 없는 열을 삭제해야 하는 경우가 발생하는데요. 이번 포스팅에서는 데이터에 열을 추가하고 삭제하는 방법에 대해서 알아보려고 해요. 열 추가하기 먼저 이번 포스팅에서 필요한 데이터를 만들어 줍니다. import pandas as pd ## 데이터 준비 data = { 'A':['apple','banana','grape'], 'B':[11,34,22] } df = pd.DataFrame(data) 꽁냥이는 기존 데이터에 'C'라는 열을 추가할 거예요.여기에서는 칼럼을 추가하는 방법 3가지를 소개합니다. 1. 각 괄호를 이용하는 방법 이 방법은 가장 간단하고 많이 활용되는 방법으로써 아래와 같이 사용합니다. df ['추가하려는 .. 2020. 9. 12.

맨 위로