본문 바로가기

전체523

[도넛 차트(Donut chart)] 2. Matplotlib을 이용하여 하위 그룹을 포함하는 도넛 차트(Nested donut chart) 그리기 안녕하세요~ 꽁냥이에요!! 데이터를 다루다 보면 상위 그룹과 하위 그룹으로 이루어진 데이터 구조를 자주 볼 수 있어요. 이러한 구조를 갖는 데이터를 시각화할 때 그룹 바 차트(Grouped bar chart) 혹은 스택 바 차트(Stacked bar chart)로 그릴 수 있는데요. 도넛 차트를 이용해서 표현할 수도 있어요. 이번 포스팅에서는 Matplotlib을 이용하여 하위 그룹을 포함하는 도넛 차트(Nested donut chart)를 그리는 방법에 대해서 알아보겠습니다. 그룹 바 차트와 스택 바 차트를 그리는 방법이 궁금하다면 아래 포스팅을 참고하세요. [바 차트(Bar chart)] 4. Matplotlib을 이용하여 그룹 바 차트(Grouped bar chart) 그리기 [바 차트(Bar ch.. 2020. 9. 12.
[Pandas] 6. 특정 문자를 포함하는/특정 문자와 일치하는 행 추출하기 안녕하세요~ 꽁냥이에요! 크기가 큰 데이터에서는 모든 데이터가 필요하지 않고 일부 조건 맞는 데이터를 추출해야 하는데요. 특히 모든 행(레코드라고도 합니다)에서 조건에 맞는 일부 행만 추출하는 경우가 상당히 많은데요. 이번 포스팅에서는 특정 문자와 일치하는 행을 추출하는 방법과 특정 문자를 포함하는 방법에 대해서 소개하려고 합니다. 1. 특정 문자와 일치하는 행 추출하기 2. 특정 문자열을 포함하는 행 추출하기 1. 특정 문자와 일치하는 행 추출하기 먼저 이번 포스팅에서 사용할 데이터를 만들어 줄게요. import pandas as pd ## 데이터 생성 data = { '이름' : ['아이린','한예슬','다현','김사랑','강민경'], '주소' : ['서울 마포구','서울 은평구','서울 노원구','.. 2020. 9. 6.
[도넛 차트(Donut chart)] 1. Matplotlib을 이용한 도넛 차트 그리기 안녕하세요~ 꽁냥이에요! 카테고리별 또는 그룹별로 집계를 하고 이를 백분율로 표시할 때 도넛 차트를 많이 활용합니다. 도넛 차트는 파이 차트에서 중간에 구멍이 난 그래프예요. 마치 도넛처럼요. 이번 포스팅에서는 Matplotlib을 이용하여 도넛 차트(Donut chart)를 그리는 방법에 대해서 알아보려고 해요. 도넛 차트는 이전 포스팅에서 파이 차트를 그릴 때 사용했던 pie 함수를 사용하고요. 추가적으로 wedgeprops라는 인자를 사용해야 합니다. 도넛 차트를 만들기 위해서 wedgeprops인자에 아래와 같이 width 키와 이에 해당하는 값으로 이루어진 딕셔너리를 넣어줘야 합니다. 여기서 width는 도넛 중앙의 반지름 길이라고 생각하시면 됩니다. wedgeprops = { 'width' :.. 2020. 9. 6.
[Pandas] 5. 데이터프래임(DataFrame) 모든 행, 모든 열 출력하기 안녕하세요. 꽁냥이에요~ 크기가 큰 데이터를 Pandas 데이터프래임(DataFrame)에 넣으면 아래의 빨간색으로 표시한 것처럼 중간 부분은 잘려서 나오게 됩니다. 하지만 상황에 따라서 중간에 잘린 데이터를 봐야하는 경우가 생깁니다. 특히, 모든 칼럼(열)을 보고 싶은 경우가 많이 있는데요. Pandas에서 중간에 잘린 데이터를 모두 볼 수 있도록 옵션을 지정할 수 있어요. 모든 열을 보고자 할 때 : pd.set_option('display.max_columns', None) 모든 행을 보고자 할 때 : pd.set_option('display.max_rows', None) 우선 이번 포스팅을 위한 임시데이터를 만들어보았습니다. 필요하신 분은 다운 받아주세요. 먼저 모든 열을 출력해보도록 하겠습니다... 2020. 8. 31.
[Pandas] 4. 필요한 열(Column) 추출하기 안녕하세요~ 꽁냥이에요! 데이터의 크기가 클 경우에는 모든 데이터를 다루기보다 필요한 열(Column)을 추출하여 데이터의 크기를 줄인다면 더 빠르게 데이터 분석을 수행할 수 있을 거예요. 이번 포스팅에서는 데이터프래임에서 원하는 칼럼을 추출하는 방법에 대해서 알아보겠습니다(상황에 따라 칼럼 또는 열이라는 단어를 사용할게요). Pandas에서는 필요한 칼럼을 추출하는 방법을 여러 가지 제공하고 있어요. 여기서는 칼럼 이름을 사용하는 방법, iloc 함수를 이용하는 방법, drop 함수를 이용하는 방법 총 3가지를 알아보겠습니다. 1. 칼럼 이름을 사용하는 방법 2. iloc를 이용하여 원하는 칼럼 추출하기 3. drop을 이용하여 원하는 칼럼 추출하기 1. 칼럼 이름을 사용하는 방법 먼저 칼럼 이름을 이.. 2020. 8. 26.
[Pandas] 3. csv 파일 불러오기/저장하기 안녕하세요~ 꽁냥이에요!! 이번 포스팅에서는 판다스(Pandas)에서 csv파일을 불러오고 저장하는 방법에 대해서 알아보겠습니다. 방법은 저번 포스팅에서 텍스트(txt) 파일을 불러오고 저장했던 방법과 동일합니다. 1. Pandas에서 csv 파일 일기(불러오기) 2. Pandas에서 데이터프레임(DataFrame)을 csv 파일로 저장하기 1. Pandas에서 csv 파일 읽기(불러오기) 여기서는 csv 파일 안에 헤더(칼럼)가 있는 경우와 없는 경우에 대해서 나눠서 설명하겠습니다. 먼저 헤더가 있는 경우에 대해서 살펴보겠습니다. 꽁냥이는 다음과 같은 텍스트 파일을 불러오려고 합니다. 번호,이름,성별,비고 1,아이린,여자,존예 2,박보검,남자,존잘 3,유민상,남자,재미있음 4,꽁냥이,남자,착함 위의 c.. 2020. 8. 25.
파이썬 3에서 'Crypto' 모듈 설치하기 안녕하세요~ 꽁냥이에요! 제가 파이썬을 이용하여 주민번호를 암호화해야할 일이 있었어요. 그 때 사용하게 된 모듈이 바로 'Crypto'모듈입니다. 우선 꽁냥이가 사용하고 있는 파이썬 버전은 3.7.3이에요. 'Crypto'모듈은 아래의 명령어를 이용하여 설치해야 돼요. pip install pycryptodome 터미널을 열고 위 명령어를 입력해보세요. (꽁냥이는 virtualenv를 이용하여 만든 가상환경안에 'Crypto'모듈을 설치할거에요) 그리고 아래와 같이 임포트 해주면 됩니다. 어렵지 않지요? 2020. 8. 25.
자유도에 대해서 정확하게 파헤쳐 보자! 학부시절 교수님이 자유도에 대해서 들려주신 에피소드가 있었다. 자유도가 무엇인지 몰랐던 학생이 있었다. 궁금증을 참지 못했던 학생은 교수님께 편지를 보냈다. "교수님 자유도가 무엇인가요?" 얼마 후 교수님께 답장이 왔다. 편지에는 이렇게 적혀있었다. "자유도는 degree of freedom이야." 그러자 학생은 다시 교수님께 편지를 보냈다. "교수님 그렇다면 degree of freedom은 무엇입니까?" 또 얼마 뒤 교수님께 답장이 왔다. "degree of freedom은 자유도란다." 이 웃지못할 에피소드가 말해주는 것은 자유도라는 개념이 어려워 말로 풀어쓰기 어렵다는 뜻이라고 나는 생각했다. 이번 포스팅에서는 일반화 선형 모형을 공부하는 과정에서 자유도에 대해서 다시 한번 복습할 겸 최대한 이해.. 2020. 8. 23.
[오류 해결] UnicodeDecodeError : 'utf-8' codec can't decode byte 0xbc in position 0: invalid start byte 안녕하세요~ 꽁냥이에요. Pandas에서 read_table, read_csv, read_excel과 같이 데이터를 읽어오는 함수를 사용할 때 간혹 아래와 같은 오류가 발생합니다. UnicodeDecodeError : 'utf-8' codec can't decode byte 0xbc in position 0: invalid start byte 저 같은 경우 한글이 포함된 csv파일이나 텍스트 파일을 read_csv 또는 read_table로 읽어올 때 위와 같은 오류가 뜨지요. 그럴 때에는 encoding인자에 한글 전용 인코딩 방식인 'euc-kr' 또는 'cp949'를 사용하면 됩니다. 꽁냥이의 경우에는 아래 코드를 바로 실행하면 오류가 떠요. import pandas as pd df_pop = pd.. 2020. 8. 13.
[Pandas] 2. 텍스트 파일(.txt) 불러오기/저장하기 안녕하세요~~ 꽁냥이에요! 저번 포스팅에서는 Pandas에서 DataFrame을 생성하는 방법에 대해서 알아보았습니다. 실무에서는 DataFrame을 직접 생성하지 않고 외부 데이터 파일을 읽어서 이를 DataFrame으로 만들어주는 작업을 더 많이 하지요. 그리고 전처리 과정을 거친 데이터 또는 데이터 분석 결과를 외부에 파일 형태로 저장하기도 합니다. 데이터를 저장하는 파일 형식 중에 하나로 텍스트(txt) 파일이 있습니다. 텍스트 파일에 데이터를 저장할 때에는 기본적으로 구분자를 함께 넣어줍니다. 구분자는 쉼표나 세미콜론 또는 tab이 될 수 있지요. 파이썬(Python)에서는 '텍스트 파일 읽기/쓰기'에 대한 방법이 여러가지가 있어요. Pandas에서도 텍스트를 읽고 저장하는 함수를 제공하고 있는.. 2020. 8. 12.

맨 위로