본문 바로가기

통계95

[시계열 분석] 9. (Augmented) Dickey-Fuller Test(검정) with Python 이번 포스팅에서는 단위근 검정을 위한 대표적인 방법으로 Dickey-Fuller Test(검정)과 이를 확장한 Augmented Dickey Fuller Test(검정)에 대한 내용을 알아본다. 또한 Python(파이썬)을 이용하여 (Augmented) Dickey-Fuller Test(검정)을 어떻게 수행하는지 알아본다. 본 포스팅을 보기에 앞서 지난 포스팅에서 다룬 단위근 검정과 Dickey-Fuller Test에 대한 기본적인 내용을 읽으면 좋다. 여기서 다루는 내용은 다음과 같다. 1. Dickey-Fuller Test(검정) 2. Augmented Dickey-Fuller Test(검정) 3. (Augmented) Dickey-Fuller Test(검정) 장단점 4. Python 예제 본 포스팅.. 2022. 4. 14.
[시계열 분석] 8. Random Walk와 단위근 검정(Unit Root Test)에 대해서 알아보자. 이번 포스팅에서는 비정상(Non-stationary) 시계열 중 하나인 Random Walk 시계열에 대해서 포스팅하려고 한다. 여기서 다루는 내용은 다음과 같다. 1. Random Walk 란? 2. 단위근 검정(Unit Root Test) 1. Random Walk 란? 1.1 정의 시계열 데이터 $X_t$가 아래와 같은 모형을 따른다고 해보자. $$X_t = X_{t-1}+Z_t\tag{1.1}$$ $$X_t = \mu+ X_{t-1}+Z_t\tag{1.2}$$ 여기서 $Z_t$는 평균이 0이고 분산은 $\sigma^2$인 백색 잡음(White Noise)이며 $X_0$는 초기값으로 실수값으로 간주하자. 또한 $\mu=E(X_t-X_{t-1})$이다. 이때 식 (1.1)을 Random Walk 모형.. 2021. 9. 24.
가설 검정과 P Value(유의 확률)에 대하여 알아보자. 얼마전 회사에서 기초통계 강의를 했었다. 강의 주제는 가설 검정이었는데 그 중에서 P Value는 중요하다고 생각해서 여기에도 포스팅하려고 한다. 가설 검정은 일반적인 내용을 소개하고 모평균 검정, 독립 이표본 평균 비교 검정 등의 특수한 내용은 추후 따로 포스팅하겠다. 먼저 P Value를 알기 위해선 가설 검정과 그 절차를 알아야한다. 이에 대해 알아보자. 1. 가설 검정 이란? 가설 검정은 다음과 같이 정의할 수 있다. 모수에 대한 가설을 모집단으로부터 추출된 표본의 통계량을 이용하여 검정하는 일련의 과정이다. 아래 그림은 가설 검정의 예를 나타낸 것이다. 위 예를 이용하여 가설 검정 절차는 다음과 같다. 1) 만약 어느 초등학교의 3학년 수학 평균이 80점이라는 주장 또는 가설을 세웠다고 하자. .. 2021. 9. 20.
[시계열 분석] 7. ARMA 모형에 대해서 알아보자 with Python 이번 포스팅에서는 자기 회귀 모형(Autoregressive Model)과 이동 평균 모형(Moving Average Model)을 결합한 ARMA 모형에 대해서 알아보려고 한다. 1. ARMA란? 2. ARMA 모형 추정 3. 예측(Forecasting) 4. 파이썬 예제 1. ARMA란? - 정의 - 시계열 데이터 $X_t$가 정상성을 만족하고 $ARMA(p, q)$ 모형을 따른다고 한다면 아래의 관계식을 만족한다. $$X_t = c + \sum_{i=1}^p\phi_iX_{t-i} + Z_t - \sum_{i=1}^q\theta_iZ_{t-i} \tag{1.1}$$ 여기서 $Z_t$는 정규분포를 따르는 백색 잡음이다. 즉, $Z_t \text{ i.i.d. } \sim N(0, \sigma^2)$ .. 2021. 9. 18.
[논문 리뷰] 5. Consistent Estimates of Autoregressive Parameters and Extended Sample Autocorrelation Function for Stationary and Nonstationary ARMA Models 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 PC 웹 브라우저 또는 모바일 웹 브라우저에서 보시기 바랍니다. 이번 포스팅에서는 ARMA 모형의 차수를 결정하는데 도움이 되는 Extended Sample Autocorrelation Function(ESACF)을 소개하는 논문을 리뷰하고자 한다. 여기서 다루는 내용은 다음과 같다. 1. Introduction 2. Iterated Regression 3. Extended Sample Autocorrelation Functions 4. Tentative Model Identification 5. Properties of the Iterated AR Estimates 6. Properties of the.. 2021. 9. 14.
[시계열 분석] 6. 이동 평균 모형(Moving Average Model) 적합하기 with Python 이번 포스팅에서는 이동 평균 모형(Moving Average : MA)에 대해서 알아보고 파이썬으로 구현해보고자 한다. 또한 statsmodels를 이용하여 이동 평균 모형을 적합하는 방법도 알아보겠다. 1. 이동 평균 모형이란 무엇인가? 2. 언제 사용하는가? 3. 모형 추정 방법 4. 예측(Forecasting) 5. 예제 1. 이동 평균 모형이란 무엇인가? 정상성(Stationary)을 갖는 시계열 데이터 $X_t$와 백색 잡음(White Noise) $Z_t$에 대하여 $q$차 이동 평균 모형 $MA(q)$는 다음과 같이 정의한다(백색 잡음의 정의는 여기를 참고하자). $$X_t = c + Z_t + \theta_1Z_{t-1} + \cdots + \theta_qZ_{t-q}\tag{1-1}$$ .. 2021. 8. 20.
[시계열 분석] 5. 자기 상관 함수(Autocorrelation Function : ACF)과 부분 자기 상관 함수(Partial Autocorrelation : PACF) with Python 이번 포스팅에서는 자기 상관 함수(Autocorrelation Function : ACF)와 부분 자기 상관 함수(Partial Autocorrelation Function : PACF)에 대하여 알아보고 파이썬을 이용하여 이를 구하는 방법을 살펴보고자 한다. 1. 자기 상관 함수 2. 부분 자기 상관 함수 3. 예제 1. 자기 상관 함수 - 정의 - 시계열 데이터 $Y_t, Y_{t-1}, \ldots, Y_1$이 있다고 하자. 이때 자기 상관 함수는 다음과 같이 정의된다. $$\gamma (r, s) = \frac{Cov(Y_r, Y_s)}{\sqrt{Var(Y_r)Var(Y_s)}}\tag{1-1}$$ 여기서 $Cov(X, Y) = E(XY) - E(X)E(Y)$, $Var(X) = E(X^2)-E.. 2021. 7. 31.
10. 가지치기(Pruning)에 대해서 알아보자 with Python 의사결정나무는 그 자체로 해석이 쉽다는 장점과 모형을 나무 형태로 보여줄 수 있다는 장점 덕분에 많이 사용한다. 하지만 잘못하면 너무 깊은(사이즈가 큰) 나무가 생성되어 모형의 과적합(Overfitting)을 유발할 수 있다. 이때 가지치기(Post Pruning)를 통하여 과적합을 방지하는데 이번 포스팅에서는 이러한 가지치기(Post Pruning)에 대해서 알아보고자 한다. 여기서 다루는 내용은 다음과 같다. 1. Cost Complexity Pruning 2. Reduced Error Pruning 3. 구현하기(Implementation) 4. 데이터에 적용해보기 본 포스팅을 읽어보기 전에 의사결정나무에 대한 내용을 이전 포스팅에서 정리해두었으니 먼저 읽어보자. 또한 노드와 마디는 같은 뜻이니 상.. 2021. 7. 5.
9. 의사결정나무(Decision Tree) 에 대해서 알아보자 with Python 이번 포스팅에서는 모형의 해석이 쉽다는 장점을 가진 의사결정나무를 공부한 내용을 포스팅하려고 한다. 의사결정이 무엇인지 알아보고 의사결정나무 모형을 직접 구현하는 방법을 소개하고 마지막에 실제 데이터를 이용하여 앞서 만든 모형이 잘 동작하는지 확인해볼 것이다. 또한 sklearn을 이용하는 방법도 소개한다. 여기서 다루는 내용은 다음과 같다. 1. 의사결정나무란? 2. 의사결정나무 모형 만들기 3. 의사결정나무 구현하기 4. 예제 with Python 1. 의사결정나무란? - 정의 - 의사결정나무(Decision Tree)는 입력값에 대한 예측값을 나무 형태로 나타내어주는 모형이다. - 용어 정리 - 먼저 의사결정나무에서 사용되는 주요 용어를 살펴보자. 뿌리 마디(root node) : 시작되는 마디로 .. 2021. 6. 10.
8. 연관 규칙 분석(Association Rule Analysis) with Python 이번 포스팅에서는 데이터 간의 관계를 탐색하기 위한 방법으로 마케팅 분야에서 많이 활용되고 있는 연관 규칙 분석(마케팅에서는 장바구니 분석이라고도 한다) 대해서 알아보고자 한다. 여기서 다루는 내용은 다음과 같다. 1. 연관 규칙 분석이란 무엇인가? 2. 연관 규칙 분석 방법 3. 고려 사항 4. 예제 with Python 1. 연관 규칙 분석이란 무엇인가? - 정의 - 연관 규칙 분석(Association Rule Analysis : ARA)은 항목(item)들 관계를 If-Then 형식으로 찾아나가는 분석 방법을 말하며 일종의 규칙 기반 학습(Rule-Based Learning) 방법이다. 특히 마케팅에서는 고객들의 상품 구매 데이터를 이용하여 품목 간의 연관성을 알아본다는 의미에서 장바구니 분석(M.. 2021. 5. 23.

맨 위로