본문 바로가기

데이터 분석/데이터 분석17

[회귀 분석] 11. Bootstrapping을 이용한 회귀추정량 추론하기 with Python 안녕하세요~ 꽁냥이에요! 이번 포스팅에서는 비모수 방법인 Bootstrapping을 이용한 회귀 추정량을 추론하는 방법에 대해서 알아보려고 합니다. 여기서 다루는 내용은 다음과 같습니다. 1. Bootstrapping을 이용한 회귀 추정량 추론 방법 2. 실제 데이터 적용 with Python 1. Bootstrapping을 이용한 회귀 추정량 추론 방법 - 언제 사용하는가 - 1) 오차의 분포가 정규분포가 아니라고 판단될 때 최소 제곱 회귀 추정량에 대한 추론은 통계학의 관심 분야 중 하나입니다. 추정량에 대한 신뢰성(또는 불확실성)을 신뢰구간 또는 검정을 통하여 확인하고 싶기 때문이지요. 회귀 추정량의 추론을 수행하기 위하여 일반적으로 오차의 분포를 정규분포로 가정합니다(이에 대한 설명은 추후 포스팅.. 2020. 12. 16.
[회귀 분석] 10. 가중 최소 제곱법(Weigted Least Square)으로 회귀 모형 적합하기 with Python 안녕하세요~ 꽁냥이에요! 선형 회귀 모형의 가정 중에서 오차가 설명변수에 의존하지 않는 등분산성 가정이 있습니다. 하지만 때때로 이 가정을 만족하지 않는 상황이 발생할 수 있는데요. 이런 상황에서 최소 제곱 회귀 추정량은 좋지 않은 성질을 갖고 있지요. 따라서 최소 제곱법이 아닌 다른 추정법을 이용하여 회귀 모형을 만들어야 합니다. 이때 사용하는 것이 오늘 소개할 가중 최소 제곱법(Weighted Least Square)입니다. 이번 포스팅에서는 가중 최소 제곱법(Weighted Least Square)과 파이썬(Python)을 이용한 예제를 알아보겠습니다. 1. 가중 최소 제곱법(Weighted Least Square)이란? 2. 가중 최소 제곱(Weighted Least Square) 모형 적합하기 .. 2020. 12. 4.
[회귀 분석] 9. 능형 회귀(Ridge regression) 모형 적합하기 with Python 안녕하세요~ 꽁냥이에요! 회귀 분석에서 회귀계수 추정량의 분산이 크다면 모형의 신뢰도가 떨어지게 됩니다. 이때 고려해볼 수 있는 것으로 능형 회귀(Ridge regression) 추정법이 있습니다. 능형 회귀 추정법은 회귀 계수 추정량의 편의가 발생하지만 분산을 줄여주는 방법인데요. 특히 변수들 간에 다중공선성이 존재할 경우 능형 회귀 모형을 사용할 수 있지요. 이번 포스팅에서는 능형 회귀 모형을 적합하는 방법과 파이썬(Python)을 이용한 예제를 알아보겠습니다. 1. 능형 회귀(Ridge Regression) 추정법이란? 2. 능형 회귀(Ridge Regression) 모형 적합하기 with Python 1. 능형 회귀(Ridge Regression) 추정법이란? 능형 회귀 추정법은 기존의 오차제곱합.. 2020. 12. 1.
[회귀 분석] 8. 이상치(Outlier), 영향점(Influential Point) 탐지 with Python 안녕하세요~ 꽁냥이에요! 데이터 분석시 이상치는 관심을 갖고 살펴보아야하는데요. 이상치는 데이터를 만드는 사람의 실수에 의해서 발생할 수도 있고 데이터를 생성하는 시스템에 의하여 발생할 수도 있습니다. 이상치는 회귀 분석에서 양날의 검이라고도 할 수 있는데요. 이상치로 인하여 모형의 해석(회귀 계수의 해석)이 정확하지 않게 될 수 있지만 중요한 정보(시스템의 고장, 새로운 연관성의 발견 등)를 제공하기 때문이지요. 또한 이상치 중에서도 모형 여기서는 회귀계수 값의 변화를 크게 만드는 것이 있고 아닌 것이 있습니다. 이때 이상치 중에서 회귀계수 값의 변화를 크게 만드는 데이터를 영향점(Influential data)이라고 합니다. 영향점이라고 판단되는 데이터는 모형을 크게 변화시키기 때문에 제외시키기도 하.. 2020. 11. 2.
[회귀 분석] 7. 다중공선성 확인하기 - 분산 팽창 인자 with Python 안녕하세요~ 꽁냥이에요! 이번 포스팅에서는 다중공선성이 무엇인지 그리고 어떻게 확인할 수 있는지 알아보려고 합니다. 회귀 모형을 적합할 때에는 여러 가지 문제를 고려해야 합니다. 오차의 분포가 정규분포를 따르는지, 오차가 관측치에 관계없이 항상 일정한지와 같은 오차 항의 가정과 관련된 문제가 있고요. 반응 변수와 중요한 연관관계를 갖는 변수가 모형에 다 포함되어 있는가에 대한 변수 선택 문제가 있지요. 또한 변수 간의 다중공선성이 회귀 분석에서 중요한 문제입니다. 여기서 다루는 내용은 다음과 같습니다. 1. 다중공선성이란? 2. 다중공선성이 왜 문제가 되는 걸까? 3. 다중공선성 확인 방법 4. 다중공선성이 존재할 경우 대책 1. 다중공선성이란? 다중 회귀 모형(Multiple regression)에서 .. 2020. 10. 5.
[회귀 분석] 6. 변수 선택법(Variable Selection) with Python 안녕하세요~ 꽁냥이에요! 수많은 변수 중에서 관심의 대상이 되는 변수(반응 변수)를 잘 설명하는 변수를 골라서 회귀 모형을 구축한다면 좋은 모형이 될 수 있을 거예요. 이번 포스팅에서는 변수 선택 방법에 대해서 소개하고 파이썬을 이용하여 구현해보겠습니다. 여기서 다루는 내용은 다음과 같습니다. 1. 데이터 준비 2. 전진 선택법(Forward Selection) 3. 후진 소거법(Backward Elimination) 4. 단계별 선택법(Forward Stepwise Selection) 1. 데이터 준비 이번 포스팅에서 사용할 데이터를 다운받아주세요. 필요한 모듈을 임포트하고 데이터를 불러옵시다~!! import pandas as pd import statsmodels.api as sm import ma.. 2020. 10. 1.
[회귀 분석] 5. 최적 모형 선택(All possible search 또는 Best subsets algorithm) with Python 안녕하세요~ 꽁냥이에요. 여러 개의 변수를 포함하는 데이터를 이용하여 선형 회귀 모형을 적합하는 상황을 생각해봅시다. 이 경우 어떤 변수 집합을 사용할지에 대한 문제가 발생합니다. 변수 집합을 생각하지 않고 모든 변수를 다 써도 되겠지만 1) 많은 변수를 포함하는 모형은 해석이 복잡해질 수 있으며 3) 과적합(Overfitting)의 문제, 4) 변수간 다중공선성(Multicolinearity) 존재 가능성 증가의 문제가 발생할 수 있습니다. 또한 적합한 모형을 계속 사용하기 위해서는 모형에 포함된 변수의 데이터를 유지관리해야 하는데 5) 변수가 많아질 수록 데이터 유지 및 관리가 어려워질 수 있습니다. 따라서 적절한 변수 집합을 선택하는 것이 중요하게 됩니다. 이번 포스팅에서는 최적 모형 선택 방법 중.. 2020. 9. 26.
[회귀 분석] 4. 오차의 등분산성 검정(테스트)하기 with Python 안녕하세요~ 꽁냥이에요!! 선형 회귀 모형의 가정 중에는 오차의 등분산성이 있어요. 오차의 등분산성이란 오차의 분산이 회귀 모형에 포함된 설명 변수의 값과 상관없이 일정하다는 뜻입니다. 오차의 등분산성을 확인해보는 방법은 설명 변수와 잔차의 산포를 나타내는 잔차도를 그려서 시각적으로 확인해보는 방법이 있는데요. 통계적 검정방법을 이용하는 방법도 있습니다. 잔차도를 그리는 방법은 여기를 참고하세요. 이번 포스팅에서는 통계적인 검정 방법을 이용하여 오차의 등분산성을 확인하는 방법을 소개합니다. 여기서는 아래의 2가지 검정 방법을 소개합니다. 1. Brown-Forsythe 검정 2. Breusch-Pagan 검정 1. Brown-Forsythe 검정 오차(Error)의 등분산성을 확인한다는 것은 (모형에 사.. 2020. 9. 22.
[회귀 분석] 3. 정규분포에 대한 가정 검정하기 with Python 안녕하세요~~ 꽁냥이에요! 선형 회귀 모형에서는 오차의 분포를 정규분포로 가정하는데요. 오차의 정규분포 가정을 시각적으로 테스트할 수 있는 방법은 QQ plot을 그려보는 방법이 있고요. 통계적으로 검정을 수행하여 정규분포 가정의 타당성을 테스트할 수도 있어요. 이번 포스팅에서는 정규분포에 대한 가정을 통계적으로 검정할 수 있는 3가지 방법을 소개합니다. 1. 데이터 준비 2. Correlation Test for Normality 3. Kolmogorov-Smirnov test 4. Shapiro-Wilks test 5. 그렇다면 정규성 검정을 위해 어떤 테스트를 써야 할까? 1. 데이터 준비 아래 데이터 파일을 다운받아주세요. 먼저 이번 포스팅에서 사용할 모듈을 임포트하고 데이터를 불러옵니다. imp.. 2020. 9. 19.
[회귀 분석] 2. 잔차도(Residual plot)와 QQ plot 그리기 안녕하세요~~ 꽁냥이에요!! 잔차도는 선형 회귀 모형의 적합성을 확인해보기 위한 그래프입니다. 또한 잔차의 절댓값(또는 제곱)과 설명변수의 그래프를 통하여 오차의 등분산성이 적합한지 1차적으로 확인할 수 있지요. 그리고 QQ plot은 선형 모형의 정규성 가정을 시각적으로 테스트하는데 활용됩니다. 따라서 이번 포스팅에서는 잔차도와 QQ plot을 그려보는 방법에 대해서 알아보겠습니다. 1. 잔차도 2. QQ-Plot 1. 잔차도 먼저 이번 포스팅에서 사용할 데이터를 다운 받아주세요. 이번 포스팅에서 필요한 모듈을 임포트하고 데이터를 불러볼게요. import numpy as np import matplotlib.pyplot as plt import matplotlib matplotlib.rcParams['.. 2020. 9. 18.

맨 위로