본문 바로가기

데이터 분석175

[Matplotlib] gridspec을 이용하여 여러 Axes 배치하기(feat. subplot) 안녕하세요~ 꽁냥이에요. 데이터 시각화를 하다 보면 하나의 화면 속에 여러 그림을 그려야 할 때가 있습니다. 이때에는 각 그림을 어떻게 배치할 것인가가 중요합니다. Matplotlib에서는 각 그림을 어떻게 배치하느냐는 결국 Axes를 어떻게 배치하느냐를 결정하는 것과 같습니다. 왜냐하면 Axes안에 그림이 그려지니까요. Matplotlib에서는 gridspec이라는 것이 있는데요. 이를 이용하면 여러 Axes를 자기가 원하는 대로 배치할 수 있습니다. 이번 포스팅에서는 Matplotlib의 gridspec을 이용하여 여러 Axes를 배치하는 방법에 대해서 알아보겠습니다. 여기서 다루는 내용은 다음과 같습니다. 1. Gridspec 기본 사용법 2. 여러 Gridspec을 이용한 복잡한 배치 1. Gri.. 2022. 6. 17.
[Pandas] 27. 문자열 데이터 다루기(공백 제거, 슬라이싱, 문자 대체, 분리, 문자 연결) (feat. strip, slice, split, replace, cat) 안녕하세요~ 꽁냥이에요. 지난 포스팅에서 특정 문자열, 단어를 포함하는 행 추출하는 방법에 대해서 소개했는데요. Pandas에서는 이외에도 문자열을 위한 여러 가지 기능을 제공하고 있습니다. 이번 포스팅에서는 Pandas에서 제공하는 문자열을 다루는 여러 기능을 소개합니다. - 목차 - 1. 공백 제거 2. 슬라이싱 3. 문자 대체 및 분리 4. 문자 연결 1. 공백 제거 파이썬에는 공백제거를 위한 내장 함수로 strip, rstrip, lstrip이 있는데요. Pandas에서도 똑같습니다. 아래 코드를 보면 금방 이해되실 거예요. import pandas as pd df = pd.DataFrame() df['A'] = ['서울', '서울', '경기'] df['B'] = [' 꽁냥이', '꽁냥이 ', '.. 2022. 5. 27.
[Matplotlib] fill_between을 이용하여 두 곡선 사이 영역 색칠하기 안녕하세요~ 꽁냥이에요. 라인 차트를 그리다 보면 두 곡선 사이 영역을 색칠하여 강조하고 싶을 때가 있지요. 이를 위해 Matplotlib에서는 fill_between을 제공하고 있어요. 이번 포스팅에서는 fill_between을 이용하여 두 곡선 사이의 영역을 색칠하는 방법에 대해서 알아보겠습니다. fill_between 사용법 - 한 곡선과 x축 사이 영역 - fill_between에는 첫 번째 인자는 x좌표를 결정할 배열과 y값에 대한 배열을 기본적으로 지정하게 되어 있어요. 이는 y값과 x축 사이에 있는 영역을 색칠하게 됩니다. import matplotlib.pyplot as plt plt.rcParams['axes.unicode_minus'] = False import numpy as np n.. 2022. 5. 24.
[Matplotlib] mplcyberpunk 모듈 - 'cyberpunk' 스타일 소개 안녕하세요~ 꽁냥이에요. 시각화 관련 내용을 검색하다가 꽁냥이 맘에 쏙 드는 스타일을 발견해서 공유하려고 해요. 바로 'cyberpunk'라는 스타일인데요. 이 스타일은 mplcyberpunk 모듈에서 제공하고 있어요. 아래는 mplcyberpunk 모듈 깃허브에서 예제로 보여준 그림인데요. 보시면 뭔가 네온사인이 켜져 있는 듯한 화려한 스타일이 너무 맘에 들더라고요. 그래서 이번 포스팅에서는 cyberpunk 스타일 적용하는 예제에 대해서 알아보려고 합니다. 설치 cyberpunk 스타일을 적용하기 위해서 mplcyberpunk 모듈을 설치해줘야 합니다. pip install mplcyberpunk cyberpunk 스타일 적용하기 - 기본 사용법 - 사용법은 style.use('cyberpunk')를.. 2022. 5. 24.
[Matplotlib] 배경색(Face Color, Background Color) 설정하기 오랜만입니다~ 꽁냥이에요. 이번 포스팅에서는 Matplotlib에서 그래프의 배경색(Face Color, Background Color)을 조절하는 방법에 대해서 알아보겠습니다. Matplotlib의 배경은 다음과 같이 Figure와 Axes 두 가지 요소로 이루어져 있습니다. 간단하게 말하면 Axes에서 실제 그래프가 그려지고 Axes 바깥 영역을 Figure라고 합니다. 따라서 그래프의 배경색(Face Color, Background Color)은 Figure와 Axes 영역 따로 설정할 수 있습니다. 이에 대해 각각 알아보겠습니다. - 목차 - 1. Figure 배경색(Background Color) 설정하기 2. Axes 배경색(Background Color) 설정하기 1. Figure 배경색(B.. 2022. 5. 24.
[Pandas] 여러가지 통계량(평균, 분산, 중앙값 등) 구하기 반갑습니다~ 꽁냥이 입니다. Pandas에서는 각종 통계량 값을 계산해주는 강력한 기능을 제공합니다. 이번 포스팅에서는 Pandas에서 평균, 분산, 중앙값과 같은 여러 가지 통계량을 계산해보는 방법을 소개합니다. 바로 코드를 통해서 알아보도록 하지요. Pandas 통계량 계산하기 먼저 데이터를 만들어줍니다. import pandas as pd df = pd.DataFrame() df['키'] = [170, 144, 156, 177, 181, 188, 181, 161] df['체중'] = [55, 52, 60, 77, 65, 89, 90, 60] 이제 각종 통계량을 계산하는 방법을 소개하겠습니다. 설명은 주석을 참고하세요. df['키'].mean() # 평균 df['키'].median() # 중앙값 = .. 2022. 5. 20.
[Pandas] 26. shift를 이용하여 칼럼 값이 바뀌는 지점(행) 찾기 안녕하세요~ 꽁냥이에요. 언젠가 회사 동료분께서 특정 칼럼의 값이 바뀌는 행을 찾는 법을 물어보셔서 알게 된 내용이 있는데요. 여러분들에게도 공유하면 언제가 써먹을 수 있을 것 같아서 이번 포스팅을 준비했습니다. 특정 칼럼의 값이 바뀐다는 것은 다음과 같이 (시간 순으로 정렬된) 데이터가 주어졌을 때 특정 칼럼의 값이 이전과는 다른 값이 나타났다는 뜻입니다(빨간 박스). 이 경우 우리는 다음과 같이 3가지 경우에 대해서 바뀌는 행(지점)을 추출하는 방법을 알아볼 것입니다. Case 1) 변경 직후 먼저 데이터를 만들어줍니다. import pandas as pd df = pd.DataFrame() df['방문 시간'] = pd.date_range('2022-01-01', '2022-01-07') df['장.. 2022. 5. 20.
[Numpy] 결측치(NaN, missing)를 포함한 두 배열의 상관계수(correlation) 구하기 (with ma.corrcoef) 안녕하세요?! 꽁냥이입니다. 데이터 분석을 하다 보면 두 배열의 상관 계수를 구할 때가 종종 있지요. 하지만 배열 속에 결측치(NaN, missing)를 포함하고 있다면 상관 계수를 계산할 수 없을 때가 있습니다. 예를 들어 아래와 같이 결측치(NaN, missing)를 포함한 두 배열이 있다고 해볼게요. import numpy as np a = np.array([np.nan, np.nan, 1, 2, 3]) b = np.array([np.nan, np.nan, 10, 14, 16]) 이 경우 np.nan를 자동적으로 제거하고 [1, 2, 3]과 [10, 14, 16]의 상관계수를 구하고 싶을 것입니다. 하지만 실제로 numpy.corrcoef를 이용하여 상관계수를 구하면 NaN값이 출력됩니다. impo.. 2022. 5. 12.
[Pandas] 26. 단순 이동 평균 계산하기 feat. rolling.mean() 안녕하세요~ 꽁냥이에요. 이번 포스팅에서는 Pandas에서 단순 이동 평균값을 계산하는 방법에 대해서 알아보려고 합니다. 주식하시는 분들은 아시겠지만 차트를 보실 때 이동 평균선을 같이 보실 텐데요. 이동 평균선이라는 것이 결국 주가의 단순 이동 평균값을 계산하는 것이므로 이번 포스팅에서 그 방법을 숙지하시면 이러한 이동 평균선들도 시각화할 수 있습니다. 여기서 다루는 내용은 다음과 같습니다. 1. 단순 이동 평균이란? 2. Pandas 단순 이동 평균 계산하기 3. 주가 데이터를 이용하여 이동 평균선 그려보기. 1. 단순 이동 평균이란? 먼저 (이미 알고계시겠지만) 단순 이동 평균의 정의를 잠깐 알아보고 가려고 합니다. 데이터(특히 시계열 데이터) $y_1, y_2, \ldots, y_n$이 있다고 했.. 2022. 5. 11.
[Pandas] pandas-datareader를 이용하여 주식(주가) 데이터 가져오기! 반갑습니다~ 꽁냥이입니다. 이번 포스팅에서는 pandas_datareader를 이용하여 주식(주가) 데이터를 가져오는 방법에 대해서 소개하려고 합니다. 여기서 다루는 내용은 다음과 같습니다. 1. pandas-datareader 설치 2. pandas-datareader를 이용한 주식(주가) 데이터 가져오기 1. pandas-datareader 설치 pandas_datareader는 주식뿐만 아니라 여러 통계 데이터들을 가져올 수 있는 api를 제공하는 강력한 모듈입니다. 설치법은 pip 명령을 이용하여 설치하면 됩니다. pip install pandas-datareader 2. pandas-datareader를 이용한 주식(주가) 데이터 가져오기 이제 주가 데이터를 불러봅시다~~ 꽁냥이는 애플을 좋아해.. 2022. 5. 11.

맨 위로