본문 바로가기

데이터 분석175

[Pandas] 5. 데이터프래임(DataFrame) 모든 행, 모든 열 출력하기 안녕하세요. 꽁냥이에요~ 크기가 큰 데이터를 Pandas 데이터프래임(DataFrame)에 넣으면 아래의 빨간색으로 표시한 것처럼 중간 부분은 잘려서 나오게 됩니다. 하지만 상황에 따라서 중간에 잘린 데이터를 봐야하는 경우가 생깁니다. 특히, 모든 칼럼(열)을 보고 싶은 경우가 많이 있는데요. Pandas에서 중간에 잘린 데이터를 모두 볼 수 있도록 옵션을 지정할 수 있어요. 모든 열을 보고자 할 때 : pd.set_option('display.max_columns', None) 모든 행을 보고자 할 때 : pd.set_option('display.max_rows', None) 우선 이번 포스팅을 위한 임시데이터를 만들어보았습니다. 필요하신 분은 다운 받아주세요. 먼저 모든 열을 출력해보도록 하겠습니다... 2020. 8. 31.
[Pandas] 4. 필요한 열(Column) 추출하기 안녕하세요~ 꽁냥이에요! 데이터의 크기가 클 경우에는 모든 데이터를 다루기보다 필요한 열(Column)을 추출하여 데이터의 크기를 줄인다면 더 빠르게 데이터 분석을 수행할 수 있을 거예요. 이번 포스팅에서는 데이터프래임에서 원하는 칼럼을 추출하는 방법에 대해서 알아보겠습니다(상황에 따라 칼럼 또는 열이라는 단어를 사용할게요). Pandas에서는 필요한 칼럼을 추출하는 방법을 여러 가지 제공하고 있어요. 여기서는 칼럼 이름을 사용하는 방법, iloc 함수를 이용하는 방법, drop 함수를 이용하는 방법 총 3가지를 알아보겠습니다. 1. 칼럼 이름을 사용하는 방법 2. iloc를 이용하여 원하는 칼럼 추출하기 3. drop을 이용하여 원하는 칼럼 추출하기 1. 칼럼 이름을 사용하는 방법 먼저 칼럼 이름을 이.. 2020. 8. 26.
[Pandas] 3. csv 파일 불러오기/저장하기 안녕하세요~ 꽁냥이에요!! 이번 포스팅에서는 판다스(Pandas)에서 csv파일을 불러오고 저장하는 방법에 대해서 알아보겠습니다. 방법은 저번 포스팅에서 텍스트(txt) 파일을 불러오고 저장했던 방법과 동일합니다. 1. Pandas에서 csv 파일 일기(불러오기) 2. Pandas에서 데이터프레임(DataFrame)을 csv 파일로 저장하기 1. Pandas에서 csv 파일 읽기(불러오기) 여기서는 csv 파일 안에 헤더(칼럼)가 있는 경우와 없는 경우에 대해서 나눠서 설명하겠습니다. 먼저 헤더가 있는 경우에 대해서 살펴보겠습니다. 꽁냥이는 다음과 같은 텍스트 파일을 불러오려고 합니다. 번호,이름,성별,비고 1,아이린,여자,존예 2,박보검,남자,존잘 3,유민상,남자,재미있음 4,꽁냥이,남자,착함 위의 c.. 2020. 8. 25.
[Pandas] 2. 텍스트 파일(.txt) 불러오기/저장하기 안녕하세요~~ 꽁냥이에요! 저번 포스팅에서는 Pandas에서 DataFrame을 생성하는 방법에 대해서 알아보았습니다. 실무에서는 DataFrame을 직접 생성하지 않고 외부 데이터 파일을 읽어서 이를 DataFrame으로 만들어주는 작업을 더 많이 하지요. 그리고 전처리 과정을 거친 데이터 또는 데이터 분석 결과를 외부에 파일 형태로 저장하기도 합니다. 데이터를 저장하는 파일 형식 중에 하나로 텍스트(txt) 파일이 있습니다. 텍스트 파일에 데이터를 저장할 때에는 기본적으로 구분자를 함께 넣어줍니다. 구분자는 쉼표나 세미콜론 또는 tab이 될 수 있지요. 파이썬(Python)에서는 '텍스트 파일 읽기/쓰기'에 대한 방법이 여러가지가 있어요. Pandas에서도 텍스트를 읽고 저장하는 함수를 제공하고 있는.. 2020. 8. 12.
[A/B 테스트] 2. A/B 테스트 사례에 대하여 알아볼까요?! 안녕하세요~~ 꽁냥이에요!! 저번 포스팅에서는 A/B 테스트가 무엇인지 살펴보았는데요. 이번에는 실제 A/B 테스트 적용사례를 알아보려고 합니다. A/B 테스트를 적용하기 위한 실제 데이터를 찾기가 어려워서 꽁냥이가 직접 분석을 하면서 보여드리고 싶었는데 그럴 수 없었어요. 그래도 계속 자료를 조사하다가 A/B 테스트를 적용한 논문이 있어서 이를 소개하고자 합니다. Improving Library User Experience with A/B Testing: Principles and Process Scott W.H Young(2014) 이번 포스팅 구성은 다음과 같습니다. 1. 논문 소개 2. 가설 검정 3. 메트릭 정의 4. 실험 설계 5. 결과 도출 6. 느낀점 1. 논문 소개 이 논문은 Montan.. 2020. 8. 9.
[파이 차트(Pie chart)] 8. Matplotlib을 이용하여 파이 차트 꾸미기 - 라벨/텍스트 겹치지 않게 만들기 안녕하세요~~ 꽁냥이에요. 파이 차트를 그리다 보면 비율이 작은 데이터가 여러 개 있는 경우에, 다시 말하면 파이의 간격이 좁은 경우에 텍스트를 표시하게 되면 아래와 같이 글자가 겹쳐서 알아보기 힘들어집니다. 위에서 보시는 바와 같이 Banan, Pear, Peach에 대응하는 비율이 작을 때(여기서는 3%) 파이 차트를 그리게 되면 텍스트가 겹치게 되는 문제가 발생합니다. 따라서 이번 포스팅에서는 파이 차트를 그릴 때 텍스트를 겹치지 않게 그리는 방법에 대해서 알아보려고 합니다. 여기서는 두 가지 방법을 소개합니다. 계단형으로 텍스트를 배치시키기 Annotation을 이용하기 자!! 그럼 하나씩 살펴볼까요?? 계단형으로 텍스트를 배치시키기 첫 번째 방법은 계단형으로 텍스트를 배치시키는 방법입니다. 즉,.. 2020. 8. 8.
[파이 차트(Pie chart)] 7. Matplotlib을 이용하여 파이 차트 꾸미기 - 파이 차트에 테두리 추가하기 안녕하세요~ 꽁냥이에요! 이번 포스팅에서는 파이 차트에 테두리를 그려보는 법에 대해서 알아보겠습니다. 파이 차트에 테두리를 추가하는 방법은 pie함수의 wedgeprops 인자를 이용하면 됩니다. wedgeprops인자에는 딕셔너리를 넣어야 하는데 테두리와 관련된 키는 edgecolor(테두리 색), linestyle(테두리 선스타일), linewidth(테두리 두께)가 있습니다. 다음은 wedgeprops인자에 들어갈 딕셔너리의 예를 나타낸 거예요. 'edgecolor' : 'k', 'linestyle' : '--', 'linewidth : 2 자 그럼 파이 차트에 테두리 넣는 것을 코드로 구현해보겠습니다. 아래 코드를 살펴볼게요. import matplotlib.pyplot as plt ## 데이터 .. 2020. 8. 4.
[파이 차트(Pie chart)] 6. Matplotlib을 이용하여 파이 차트 꾸미기 - 색상 바꾸기 안녕하세요~~ 꽁냥이에요!! Matplotlib에서는 매번 같은 색상의 파이 차트를 제공하고 있는데요. 사람에 따라 좋아하는 색상이 다르기 때문에 각자 원하는 색으로 파이 차트를 꾸미면 좋을 거예요. 이번 포스팅에서는 파이 차트 조각들의 색상을 바꿔보는 방법에 대해서 소개해드리려고 해요. 꽁냥이는 각 과일의 색상을 파이 차트로 표현하려고 해요. Matplotlib에서 사용할 수 있는 색상이 궁금하시다면 여기를 참고하세요. 파이 차트의 색상은 pie함수의 colors인자를 이용하여 바꿀 수 있어요. 아래 코드를 살펴보겠습니다. import matplotlib.pyplot as plt import numpy as np ## 데이터 준비 labels = ['Apple','Banana','Grape','Pear.. 2020. 7. 31.
[Pandas] 1. DataFrame 생성하기 안녕하세요~~ 꽁냥이에요! Pandas는 데이터를 행과 열로 이루어진 우리에게 익숙한 테이블 형태로 제공하고요. 데이터 조회, 데이터 변환, 칼럼 추출, 결측치 처리 등 데이터 전처리에 필요한 강력한 기능을 제공하고 있어서 데이터를 분석한다면 Pandas를 필수적으로 다룰 수 있어야해요. 또한 Pandas의 문서는 자세한 설명과 다양한 예제를 제공하고 있어서 모르는 것이 있다면 관련 내용을 빠르게 찾고 쉽게 이해할 수 있어요. Pandas 문서 : pandas documentation — pandas 1.0.5 documentation API reference The reference guide contains a detailed description of the pandas API. The refere.. 2020. 7. 30.
[파이 차트(Pie chart)] 5. Matplotlib을 이용하여 파이차트 꾸미기 - 범례 표시하기 안녕하세요. 꽁냥이에요!! 파이 차트는 원 그래프, 원형 차트라고도 하며 카테고리별 통계치의 비율을 직관적으로 보고 싶을 때 많이 사용하는 그래프입니다. 이번 포스팅에서는 파이 차트를 그릴 때 범례를 표시하는 방법에 대해서 알아보겠습니다. pie함수는 기본적으로 labels라는 인자를 사용하여 라벨을 출력할 수 있습니다. 아래 코드를 실행해보세요. import matplotlib.pyplot as plt import numpy as np ## 데이터 준비 labels = ['Apple','Banana','Grape','Pear','Peach'] ## 라벨 frequency = [120,120,380,240,200] ## 빈도 fig = plt.figure(figsize=(8,8)) ## 캔버스 생성 fi.. 2020. 7. 28.

맨 위로