본문 바로가기

전체523

[회귀 분석] 4. 오차의 등분산성 검정(테스트)하기 with Python 안녕하세요~ 꽁냥이에요!! 선형 회귀 모형의 가정 중에는 오차의 등분산성이 있어요. 오차의 등분산성이란 오차의 분산이 회귀 모형에 포함된 설명 변수의 값과 상관없이 일정하다는 뜻입니다. 오차의 등분산성을 확인해보는 방법은 설명 변수와 잔차의 산포를 나타내는 잔차도를 그려서 시각적으로 확인해보는 방법이 있는데요. 통계적 검정방법을 이용하는 방법도 있습니다. 잔차도를 그리는 방법은 여기를 참고하세요. 이번 포스팅에서는 통계적인 검정 방법을 이용하여 오차의 등분산성을 확인하는 방법을 소개합니다. 여기서는 아래의 2가지 검정 방법을 소개합니다. 1. Brown-Forsythe 검정 2. Breusch-Pagan 검정 1. Brown-Forsythe 검정 오차(Error)의 등분산성을 확인한다는 것은 (모형에 사.. 2020. 9. 22.
[일반화 선형 모형(Generalized Linear Model)] 2. Exponential Dispersion Family에 대하여 이번 포스팅에서는 Exponential Dispersion Family에 대해서 공부한 내용이다. 여기서 다루는 내용은 다음과 같다. 1. Exponential Dispersion Family의 정의 2. Exponential Dispersion Family의 예 1. Exponetial Dispersion Family의 정의 Exponential Dispersion Family는 모수적 확률분포(Parametric Probability Distribution)의 모임으로써 확률밀도함수가 다음과 같은 형태를 취한다. $$f(y ; \theta, \phi) = \exp \{[y\theta-b(\theta)]/a(\phi)+c(y,\phi)\}\tag{1}$$ 여기서 $\theta$는 natural para.. 2020. 9. 20.
[회귀 분석] 3. 정규분포에 대한 가정 검정하기 with Python 안녕하세요~~ 꽁냥이에요! 선형 회귀 모형에서는 오차의 분포를 정규분포로 가정하는데요. 오차의 정규분포 가정을 시각적으로 테스트할 수 있는 방법은 QQ plot을 그려보는 방법이 있고요. 통계적으로 검정을 수행하여 정규분포 가정의 타당성을 테스트할 수도 있어요. 이번 포스팅에서는 정규분포에 대한 가정을 통계적으로 검정할 수 있는 3가지 방법을 소개합니다. 1. 데이터 준비 2. Correlation Test for Normality 3. Kolmogorov-Smirnov test 4. Shapiro-Wilks test 5. 그렇다면 정규성 검정을 위해 어떤 테스트를 써야 할까? 1. 데이터 준비 아래 데이터 파일을 다운받아주세요. 먼저 이번 포스팅에서 사용할 모듈을 임포트하고 데이터를 불러옵니다. imp.. 2020. 9. 19.
[회귀 분석] 2. 잔차도(Residual plot)와 QQ plot 그리기 안녕하세요~~ 꽁냥이에요!! 잔차도는 선형 회귀 모형의 적합성을 확인해보기 위한 그래프입니다. 또한 잔차의 절댓값(또는 제곱)과 설명변수의 그래프를 통하여 오차의 등분산성이 적합한지 1차적으로 확인할 수 있지요. 그리고 QQ plot은 선형 모형의 정규성 가정을 시각적으로 테스트하는데 활용됩니다. 따라서 이번 포스팅에서는 잔차도와 QQ plot을 그려보는 방법에 대해서 알아보겠습니다. 1. 잔차도 2. QQ-Plot 1. 잔차도 먼저 이번 포스팅에서 사용할 데이터를 다운 받아주세요. 이번 포스팅에서 필요한 모듈을 임포트하고 데이터를 불러볼게요. import numpy as np import matplotlib.pyplot as plt import matplotlib matplotlib.rcParams['.. 2020. 9. 18.
folium - popup, tooltip 한글 깨짐 현상 - 임시 방편 해결법! 안녕하세요~ 꽁냥이에요!! folium은 지도 데이터를 시각화하는 유명한 라이브러리인데요. 하지만 주피터 노트북으로 지도를 출력하면 팝업과 툴팁에서 깨짐 현상이 발생합니다. coordinate = [37.559722, 126.975278] ## 숭례문 좌표 m = folium.Map(location=coordinate, zoom_start=12) folium.Marker(location=coordinate, popup='숭례문', tooltip='숭례문' ).add_to(m) m 위 코드를 실행하면 아래와 같이 팝업과 툴팁에서 한글깨짐 현상이 발생해요. 이에 대한 해결 방안으로 html 파일을 만들어서 크롬이나 인터넷익스플로러와 같은 웹브라우저로 실행하면 됩니다. coordinate = [37.55972.. 2020. 9. 16.
[회귀 분석] 1. Python을 이용하여 단순 선형 회귀 모형 적합해보기! 안녕하세요~ 꽁냥이에요! 회귀 분석은 관심이 대상이 되는 변수와 설명 변수들 간의 연관성을 파악하기 위한 분석으로써 많이 활용되고 있어요. 이번 포스팅에서는 Python을 이용하여 단순 선형 회귀 모형을 적합하는 방법에 대해서 소개합니다. 회귀 분석에 대한 개념은 아래 포스팅에 정리했어요~. 16. 선형 회귀(Linear Regression) 모형에 대해서 알아보자 with Python 16. 선형 회귀(Linear Regression) 모형에 대해서 알아보자 with Python 머신러닝 관련 포스팅을 하면서 아주 기본적이지만 이론적으로 강력한 선형 회귀 관련 내용을 포스팅하지 않았다는 것에 매우 놀랐다. 이번 포스팅에서는 선형 회귀 모형에 대해서 알아보고 파 zephyrus1111.tistory.co.. 2020. 9. 14.
[Pandas] 10. 열/칼럼 이름 바꾸기 안녕하세요~ 꽁냥이에요!! 데이터 분석을 하다 보면 열(칼럼) 이름이 복잡하거나 이해하기 어려워 이를 분석자가 이해하기 쉽게 바꿔야 할 때가 있어요. 이번 포스팅에서는 Pandas 데이터프래임에서 열(칼럼) 이름을 바꾸는 방법에 대해서 알아볼게요. 1. Pandas 데이터프래임 특정 열(칼럼) 이름 바꾸기 2. Pandas 데이터프래임 전체 열(칼럼) 이름 바꾸기 1. Pandas 데이터프래임 특정 열(칼럼) 이름 바꾸기 먼저 데이터를 준비합니다. import pandas as pd ## 데이터 준비 data = { 'Hero':['Jack','Michael','Jim','Mengsk'], 'Age':[21,33,45,56] } df = pd.DataFrame(data) 칼럼 이름을 바꾸기 위해서는 기존.. 2020. 9. 14.
[Pandas] 9. 데이터 결합(Join)하기 안녕하세요~~ 꽁냥이에요!! 데이터 분석을 하다 보면 두 개 이상의 데이터를 다루어야 할 때가 많은데요. 두 데이터에 공통으로 포함하지 않은 열(Column)이 있을 때에는 이를 합쳐서 보고 싶을 거예요. 왜냐하면 두 데이터를 결합하여 하나의 데이터로 만들어주어야 데이터 분석이 더 용이해질 테니까요. 이번 포스팅에서는 Pandas 데이터 프래임들을 결합하는 방법에 대해서 소개하려고 합니다. 1. 세로로 결합하기 2. 가로로 결합하기 1. 세로로 결합하기 세로로 결합한다는 뜻은 행과 행이 더해진다는 뜻이에요. 아래 그림처럼 말이죠. 먼저 세로로 결합하기 위한 데이터를 준비해볼게요. import pandas as pd ## 데이터 준비 data1 = { 'A':['apple','banana'], 'B':[1.. 2020. 9. 13.
[Pandas] 8. 랜덤으로 행 추출하기 안녕하세요~ 꽁냥이에요!! 이번 포스팅에서는 데이터(행)를 랜덤으로 추출하는 방법에 대해서 알아볼 거예요. 1. 기본 2. 응용 1. 기본 이번 포스팅에서 사용할 데이터를 먼저 준비할게요. import pandas as pd ## 데이터 준비 data = { 'A':['apple','grape','pear','banana','orange'], 'B':[12,13,5,2,22] } df = pd.DataFrame(data) pandas에서는 sample이라는 함수를 이용하여 데이터를 랜덤으로 추출할 수 있어요. sample 함수의 기본 사용법은 아래와 같아요. df.sample( n = '추출할 데이터 개수', frac = '추출할 데이터 비율', replace = True (복원), False (비복원).. 2020. 9. 12.
[Pandas] 7. 열 추가/삭제하기 안녕하세요~~ 꽁냥이에요! 데이터를 다루다 보면 기존 데이터에 열을 추가하거나 필요 없는 열을 삭제해야 하는 경우가 발생하는데요. 이번 포스팅에서는 데이터에 열을 추가하고 삭제하는 방법에 대해서 알아보려고 해요. 열 추가하기 먼저 이번 포스팅에서 필요한 데이터를 만들어 줍니다. import pandas as pd ## 데이터 준비 data = { 'A':['apple','banana','grape'], 'B':[11,34,22] } df = pd.DataFrame(data) 꽁냥이는 기존 데이터에 'C'라는 열을 추가할 거예요.여기에서는 칼럼을 추가하는 방법 3가지를 소개합니다. 1. 각 괄호를 이용하는 방법 이 방법은 가장 간단하고 많이 활용되는 방법으로써 아래와 같이 사용합니다. df ['추가하려는 .. 2020. 9. 12.

맨 위로