본문 바로가기

전체 글523

[시계열 분석] 3. (General) Durbin-Watson 검정 with Python 시계열 모형(특히 최소 제곱법으로 구한 모형)에서 오차의 독립성이 만족하지 않는다면 모형 파라미터의 정확성(편의 발생)이 떨어지고 예측구간의 신뢰성 또한 보장되지 않는다. 따라서 모형을 추정한 후 오차의 독립성을 만족하는지 확인해봐야할 것이다. 독립성을 만족하지 않는다면 오차는 종속성을 갖는다고 볼 수 있다. 시계열 데이터에서 오차는 종종 자기 상관(Autocorrelation)이라는 형태로 종속성을 갖게된다. 따라서 오차의 자기 상관 여부를 검정하는 방법이 필요하다. 이번 포스팅에서는 오차의 자기 상관 존재 여부를 통계적으로 검정하는 Durbin-Watson 검정을 소개한다. 여기서 다루는 내용은 다음과 같다. 1. Durbin-Watson 검정 2. Generalized Durbin-Watson 검정.. 2021. 3. 21.
[논문 리뷰] 4. Generalization of the Durbin-Watson Statistic For Higher Order Autoregressive Processes 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 PC 웹 브라우저 또는 모바일 웹 브라우저에서 보시기 바랍니다. 이번 포스팅에서는 오차의 2차 이상의 자기 상관 여부를 검정할 수 있는 방법을 제시한 Vinod의 논문 "Generalization of the Durbin-Watson Statistic for Higher Order Auturegressive Processes"을 리뷰하고 파이썬으로 구현해보려고 한다. 여기서 다루는 내용은 다음과 같다. Abstract 1. Introduction and Notation 2. Durbin-Watson Theory 3. Generalization of the Statistic for Higher Order .. 2021. 2. 28.
[시계열 분석] 2. 최소 제곱법을 이용한 시계열 분석 with Python 이번 포스팅에서는 기존 최소 제곱법을 이용하여 시계열 데이터를 분석하는 방법과 파이썬(Python)으로 구현하는 방법에 대해서 알아보고자 한다. 여기서 다루는 내용은 다음과 같다. 1. 선형 추세 분석 2. 계절성을 가진 데이터 분석 1. 선형 추세 분석 시계열 데이터 $(Y_t : t=1, \ldots, n)$가 주어졌다고 하자. 이때 $y_t$에 대하여 다음과 같은 가정을 해보자. $$Y_t = \mu_t + X_t$$ 여기서 $\mu_t$는 Deterministic Trend(시간 $t$에 대한 함수라고 생각하자)이고 $X_t$는 평균이 0이고 분산이 $\sigma^2$인 IID(Indepedent and Indentical Distributed) Process이다. - 추정 방법 - 시계열 데이터.. 2021. 2. 24.
[Pandas] 18. 두 날짜 사이의 날짜 생성하기. 안녕하세요~ 꽁냥이에요. 시계열 데이터를 다루다 보면 날짜에 대한 정보가 없어서 이를 생성해줘야 할 때가 종종 있는데요. 예를 들어 미국 아이오와주 더뷰크(Dubuque) 도시의 1964년 1월부터 1975년 12월까지 온도를 나타내는 데이터가 있다고 해보죠. 이때 데이터 안에 온도는 나왔지만 날짜가 없는 경우에는 날짜를 생성해줘야 되겠지요. 이번 포스팅에서는 Pandas를 이용하여 두 날짜 사이의 날짜를 생성하는 방법에 대해서 알아보겠습니다. 여기서 다루는 내용은 다음과 같습니다. 1. 두 날짜 사이의 날짜 생성하기 2. 응용하기 1. 두 날짜 사이의 날짜 생성하기 날짜 생성은 Pandas에서 제공하는 date_range를 이용하면 됩니다. 사용법은 다음과 같습니다. date_range( start='.. 2021. 2. 22.
[시계열 분석] 1. 시계열 데이터와 정상 과정(Stationary Process) 시계열 데이터가 무엇인지 정상 과정이 무엇인지 공부한 내용을 포스팅해보려고 한다. David Hitchcock 교수님 강의를 참고하였다. 이번 포스팅에서 다루는 내용은 다음과 같다. 1. 시계열 데이터란 무엇인가? 2. Stationary Process 란? 1. 시계열 데이터란 무엇인가? - 정의 - 시계열 데이터는 시간에 따라 같은 시간 간격(Equally Spaced)으로 또는 불규칙적(Unequally Spaced)으로 생산된 데이터를 말하며 데이터 속에 생성된 날짜, 시간 등이 포함된다. - 특징 - 시계열 데이터는 그냥 데이터와 무엇이 다를까? 먼저 시계열 데이터는 일반적으로 이전 데이터와 종속 관계에 있다(Not independent). 또한 현시점에서 얻어진 데이터의 확률 분포는 다른 시점.. 2021. 2. 21.
7. 이상치 탐지(Outlier Detection) - 통계적 검정과 여러가지 판별법 with Python 이번 포스팅에서는 데이터 속에 이상치가 있는지 없는지 테스트해볼 수 있는 통계적 방법과 판별 기준에 대해서 소개한다. 여기서 다루는 내용은 다음과 같다. 1. Grubbs's Test 2. Chauvenet's Criterion 3. Peirce's Criterion 4. Dixon's Q-Test 5. Generalized Extreme Studentized Deviation Test 1. Grubbs's Test - 정의 - Grubbs's Test는 정규분포를 따르는 데이터에서 하나의 이상치를 발견할 수 있는 검정 방법이다. Grubbs's Test는 관측된 데이터가 정규분포로 추출되거나 데이터의 분포가 근사적으로 정규분포를 따른다고 가정한다. 따라서 이 검정법을 수행하기 위해서는 사전에 데이터의 .. 2021. 2. 17.
[논문 리뷰] 3. Gaussian Quadratures for the Integrals 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 PC 웹 브라우저 또는 모바일 웹 브라우저에서 보시기 바랍니다. 이번 포스팅에서는 각종 기대값의 근사치를 구하거나 순서 통계량의 누적 분포를 구할 때 필요한 Gaussian Quadrature 적분 관련 논문인 Steen 외 2명의 논문 'Gaussian Quadratures for the Integrals'을 소개하고 여기에서 제시한 적분 근사 방법을 파이썬으로 구현해보고자 한다. 여기서 다루는 내용은 다음과 같다. Abstract 1. Introduction 2. Computation of Weights and Abscissae 3. Implementation with Python Abstract G.. 2021. 2. 15.
[일반화 선형 모형] 7. 모형 비교 및 모형 적절성 확인 with Python 이번 포스팅에서는 인접 모형(Nested)들을 적합도 측면에서 비교하는 방법과 모형 적합이 실제로 잘되었는지 확인해보는 방법에 대해서 소개하려고 한다. 이 포스팅을 읽기 전에 아래의 내용을 읽어보고 오기 바란다. - Exponential Dispersion Family - 우도 방정식 여기서 다루는 내용은 다음과 같다. 1. Deviance와 Generalized Pearson 통계량 2. 모형 비교 3. 시각적으로 모형 적합 확인 4. 실제 데이터 적용 1. Deviance와 Generalized Pearson 통계량 $y_i$의 확률 분포는 exponential dispersion family라고 하자. 같은 분포에서 독립적으로 관측된 반응 변수 벡터를 $y = (y_1, \ldots, y_n)^t$.. 2021. 2. 10.
6. Least Absolute Deviation Regression에 대해서 알아보자 with Python 이번 포스팅에서는 최소 제곱법에 묻혀서 잘 알려지지 않지만 꽤나 유용한 Least Absolute Regression에 대해서 알아보고자 한다. 여기서 다루는 내용은 다음과 같다. 1. Least Absolute Regression이란? 2. 모형 적합 알고리즘 3. 통계적 검정 4. 모의 실험 5. 실제 데이터 적용 1. Least Absolute Deviation Regression이란? - 정의 - 먼저 데이터 $(\tilde{x}_i, y_i), \; i=1, \ldots, n$ 가 있다고 하자. 여기서 $\tilde{x}_i = (1, x_{i1}, \ldots, x_{ip})^t$ 이다. 이때 Least Absolute Deivation Regression(LADR)은 아래의 손실 함수 $L$.. 2021. 1. 26.
[Pandas] 17. 범주형 데이터 가변수/더미 변수(dummy variable)로 바꾸기 안녕하세요~ 꽁냥이에요. 회귀 모형을 적합할 때 범주형 변수를 더미 변수로 바꾸어주는데요. Pandas에서는 범주형 변수를 더미 변수로 바꾸어주는 get_dummies함수를 제공합니다. 이번 포스팅에서는 Pandas를 이용하여 범주형 변수를 가변수로 바꿔보는 방법에 대해서 소개합니다. 여기서는 가변수, 더미 변수 혼용했습니다. 둘 다 같은 뜻입니다. get_dummies 함수의 기본적인 사용법은 다음과 같습니다. get_dummies(데이터프레임, columns = [칼럼명1, 칼럼명2, . . . ] , . . ) get_dummies의 첫 번째 인자에는 가변수로 바꾸어줄 데이터를 넣어줍니다. 그리고 columns에는 가변수로 바꿔줄 범주형 칼럼 이름을 넣어줍니다. columns를 따로 지정해주지 않으.. 2021. 1. 19.

맨 위로