본문 바로가기

전체 글523

[Scikit-Learn] 2. 최대 최소(Min Max) 변환하기 feat. MinMaxScaler 예측 모델링을 할 때 학습 데이터에 대하여 변환하는 경우가 굉장히 많다. 그중에서 각 데이터를 특정 범위로 제한시키는 Min Max 변환을 많이 사용한다. 최대 최소(Min Max) 변환은 원 데이터를 우리가 지정한 범위 내로 변환시키는 것이다. Scikit-Learn(sklearn)에서는 Min Max 변환을 위한 클래스인 MinMaxScaler를 제공한다. 이번 포스팅에서는 그 사용법을 알아본다. 1. Scikit-Learn(sklearn) MinMaxScaler 변환 과정 2. Scikit-Learn(sklearn) MinMaxScaler 사용법 1. Scikit-Learn(sklearn) MinMaxScaler 변환 과정 먼저 MinMaxScaler를 사용하여 데이터를 변환하는 과정은 다음과 같다.. 2022. 5. 27.
[Matplotlib] fill_between을 이용하여 두 곡선 사이 영역 색칠하기 안녕하세요~ 꽁냥이에요. 라인 차트를 그리다 보면 두 곡선 사이 영역을 색칠하여 강조하고 싶을 때가 있지요. 이를 위해 Matplotlib에서는 fill_between을 제공하고 있어요. 이번 포스팅에서는 fill_between을 이용하여 두 곡선 사이의 영역을 색칠하는 방법에 대해서 알아보겠습니다. fill_between 사용법 - 한 곡선과 x축 사이 영역 - fill_between에는 첫 번째 인자는 x좌표를 결정할 배열과 y값에 대한 배열을 기본적으로 지정하게 되어 있어요. 이는 y값과 x축 사이에 있는 영역을 색칠하게 됩니다. import matplotlib.pyplot as plt plt.rcParams['axes.unicode_minus'] = False import numpy as np n.. 2022. 5. 24.
[Matplotlib] mplcyberpunk 모듈 - 'cyberpunk' 스타일 소개 안녕하세요~ 꽁냥이에요. 시각화 관련 내용을 검색하다가 꽁냥이 맘에 쏙 드는 스타일을 발견해서 공유하려고 해요. 바로 'cyberpunk'라는 스타일인데요. 이 스타일은 mplcyberpunk 모듈에서 제공하고 있어요. 아래는 mplcyberpunk 모듈 깃허브에서 예제로 보여준 그림인데요. 보시면 뭔가 네온사인이 켜져 있는 듯한 화려한 스타일이 너무 맘에 들더라고요. 그래서 이번 포스팅에서는 cyberpunk 스타일 적용하는 예제에 대해서 알아보려고 합니다. 설치 cyberpunk 스타일을 적용하기 위해서 mplcyberpunk 모듈을 설치해줘야 합니다. pip install mplcyberpunk cyberpunk 스타일 적용하기 - 기본 사용법 - 사용법은 style.use('cyberpunk')를.. 2022. 5. 24.
[Matplotlib] 배경색(Face Color, Background Color) 설정하기 오랜만입니다~ 꽁냥이에요. 이번 포스팅에서는 Matplotlib에서 그래프의 배경색(Face Color, Background Color)을 조절하는 방법에 대해서 알아보겠습니다. Matplotlib의 배경은 다음과 같이 Figure와 Axes 두 가지 요소로 이루어져 있습니다. 간단하게 말하면 Axes에서 실제 그래프가 그려지고 Axes 바깥 영역을 Figure라고 합니다. 따라서 그래프의 배경색(Face Color, Background Color)은 Figure와 Axes 영역 따로 설정할 수 있습니다. 이에 대해 각각 알아보겠습니다. - 목차 - 1. Figure 배경색(Background Color) 설정하기 2. Axes 배경색(Background Color) 설정하기 1. Figure 배경색(B.. 2022. 5. 24.
[Pandas] 여러가지 통계량(평균, 분산, 중앙값 등) 구하기 반갑습니다~ 꽁냥이 입니다. Pandas에서는 각종 통계량 값을 계산해주는 강력한 기능을 제공합니다. 이번 포스팅에서는 Pandas에서 평균, 분산, 중앙값과 같은 여러 가지 통계량을 계산해보는 방법을 소개합니다. 바로 코드를 통해서 알아보도록 하지요. Pandas 통계량 계산하기 먼저 데이터를 만들어줍니다. import pandas as pd df = pd.DataFrame() df['키'] = [170, 144, 156, 177, 181, 188, 181, 161] df['체중'] = [55, 52, 60, 77, 65, 89, 90, 60] 이제 각종 통계량을 계산하는 방법을 소개하겠습니다. 설명은 주석을 참고하세요. df['키'].mean() # 평균 df['키'].median() # 중앙값 = .. 2022. 5. 20.
[Pandas] 26. shift를 이용하여 칼럼 값이 바뀌는 지점(행) 찾기 안녕하세요~ 꽁냥이에요. 언젠가 회사 동료분께서 특정 칼럼의 값이 바뀌는 행을 찾는 법을 물어보셔서 알게 된 내용이 있는데요. 여러분들에게도 공유하면 언제가 써먹을 수 있을 것 같아서 이번 포스팅을 준비했습니다. 특정 칼럼의 값이 바뀐다는 것은 다음과 같이 (시간 순으로 정렬된) 데이터가 주어졌을 때 특정 칼럼의 값이 이전과는 다른 값이 나타났다는 뜻입니다(빨간 박스). 이 경우 우리는 다음과 같이 3가지 경우에 대해서 바뀌는 행(지점)을 추출하는 방법을 알아볼 것입니다. Case 1) 변경 직후 먼저 데이터를 만들어줍니다. import pandas as pd df = pd.DataFrame() df['방문 시간'] = pd.date_range('2022-01-01', '2022-01-07') df['장.. 2022. 5. 20.
19. 서포트 벡터 머신(Support Vector Machine)에 대해서 알아보자 with Python 딥러닝이 나타나기 전에 전성기를 구가했던 서포트 벡터 머신(Support Vector Machine)에 대해서 공부한 내용을 포스팅하려고 한다. 서포트 벡터 머신에 대한 개념과 종류 그리고 파이썬으로 구현하는 방법을 소개한다. 구현은 직접 구현을 해보고 Scikit-learn에서 제공하는 것과 비교하려고 한다. 이번 포스팅에서 다루는 내용은 다음과 같다. 1. 서포트 벡터 머신(Support Vector Machine)이란? 2. 서포트 벡터 머신(Support Vector Machine) 종류 3. 서포트 벡터 머신(Support Vector Machine) 장단점 4. 파이썬 구현 이곳은 꽁냥이가 머신러닝을 공부한 내용을 정리하는 곳입니다. 이 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서.. 2022. 5. 16.
A Tutorial on Support Vector Regression Support Vector Machine의 아이디어를 어떻게 회귀 문제에 적용하는지 궁금해서 읽어본 자료이다. 이번 포스팅에서는 이를 공부한 내용을 정리한다. - 목차 - 1. Introduction 2. Kernels 3. Cost Functions 4. The Bigger Picture 5. Optimization Algorithms 6. Variations on a Theme 7. Regularization 8. Conclusion 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 PC 웹 브라우저 또는 모바일 웹 브라우저에서 보시기 바랍니다. 1. Introduction 이 글의 목적은 서포트 벡터 회귀(Support Vector Regressi.. 2022. 5. 15.
[Numpy] 결측치(NaN, missing)를 포함한 두 배열의 상관계수(correlation) 구하기 (with ma.corrcoef) 안녕하세요?! 꽁냥이입니다. 데이터 분석을 하다 보면 두 배열의 상관 계수를 구할 때가 종종 있지요. 하지만 배열 속에 결측치(NaN, missing)를 포함하고 있다면 상관 계수를 계산할 수 없을 때가 있습니다. 예를 들어 아래와 같이 결측치(NaN, missing)를 포함한 두 배열이 있다고 해볼게요. import numpy as np a = np.array([np.nan, np.nan, 1, 2, 3]) b = np.array([np.nan, np.nan, 10, 14, 16]) 이 경우 np.nan를 자동적으로 제거하고 [1, 2, 3]과 [10, 14, 16]의 상관계수를 구하고 싶을 것입니다. 하지만 실제로 numpy.corrcoef를 이용하여 상관계수를 구하면 NaN값이 출력됩니다. impo.. 2022. 5. 12.
[Python] 파이썬 모듈(라이브러리, 패키지) 버전 확인하기(__version__, pip) 이따금씩 내 컴퓨터에 설치된 파이썬 모듈(라이브러리, 패키지)의 버전을 확인해야 할 필요가 있다. 이번 포스팅에서는 파이썬에서 모듈(라이브러리, 패키지)의 버전을 확인하는 방법에 대해서 소개한다. - 목차 - 1. __version__ 이용하기 2. pip list show 이용하기 1. __version__ 이용하기 파이썬 모듈(라이브러리, 패키지)에는 __version__이라는 속성을 갖도록 권장하고 있다. 따라서 __version__을 이용하면 해당 모듈(라이브러리, 패키지)의 버전을 확인할 수 있다. import pandas as pd import numpy as np print('Pandas Version :', pd.__version__) print('Numpy Version :', np.__.. 2022. 5. 11.

맨 위로