본문 바로가기

통계95

[Quantile Regression] 2. Quantile regression : Understanding how and why? "Quantile Regression - Theory and Applications"(Cristina Davino 외 2명) 2장을 공부했다. 저번 포스팅에서는 Quantile Regression(QR)의 기본적인 내용을 소개하고 파이썬 예제를 살펴보았다면 이번 포스팅에서는 먼저 QR 파라미터를 어떻게 추정하는지 알아보고 이를 파이썬을 이용하여 구현해보고자 한다(밑바닥부터 구현하는 건 아니다 ㅎㅎ). 그리고 여러 가지 실험을 통하여 QR을 왜 사용하는지에 대해서 고찰해보고자 한다. 1. QR 파라미터 추정법 2. QR을 어떻게 그리고 왜 사용하는가? 1. QR 파라미터 추정법 1. 추정 방법 먼저 데이터 $(y_i, \tilde{x}_i^t), i=1, \ldots, n$ 가 있다고 하자. 여기서 $\t.. 2021. 5. 5.
[Quantile Regression] 1. A visual introduction to quantile regression 요즘 "Quantile Regression - Theory and Applications"(Cristina Davino 외 2명)를 공부하고 있다. 공부한 내용을 읽고 넘어가기보다 포스팅해두는 것이 좋겠다는 생각이 들었다. 왜냐하면 기억이 오래가기 때문이다 ㅎㅎ. 각 Chapter 별로 포스팅하려고 한다. 내용이 광범위한 것은 포스팅 하나에 1개 Chapter를 소개하려고 하며 필요에 따라선 여러 Chapter를 하나의 포스팅에 정리하려고 한다. 또한 파이썬을 이용하여 예제도 같이 포함시키려고 한다. 이번 포스팅에서는 QR을 소개하는 기본적인 내용을 다루려고 하며 그 내용은 다음과 같다. 1. Quantile Regression에 대하여 2. Quantile Regression 예제 with Python.. 2021. 4. 24.
[시계열 분석] 4. 자기 회귀 모형(Autoregressive Model) 적합하기 with Python 이번 포스팅에서는 시계열 모형 중 하나인 자기 회귀 모형(Autoregressive Model : AR)에 대해서 알아보고 파이썬으로 구현해보고자 한다. 또한 statsmodels을 사용하여 자기 회귀 모형을 추정하거나 예측하는 방법에 대해서도 소개한다. 1. 자기 회귀 모형이란 무엇인가? 2. 언제 사용하는가? 3. 모형 추정 방법 4. 예측(Forecasting) 5. 예제 6. 장단점 1. 자기 회귀 모형이란 무엇인가? 자기 회귀 모형을 정의하기 이전에 백색 잡음의 정의를 알아보자. - 백색 잡음 - 정상성을 가지는 시계열 $Z_t , t=1, \ldots, n$ 에 대하여 $E(Z_t) = 0$, $\gamma_Z(h) = E(Z_tZ_{t-h})$라 하자. 이때 $\gamma_Z(h) = \si.. 2021. 4. 9.
[시계열 분석] 3. (General) Durbin-Watson 검정 with Python 시계열 모형(특히 최소 제곱법으로 구한 모형)에서 오차의 독립성이 만족하지 않는다면 모형 파라미터의 정확성(편의 발생)이 떨어지고 예측구간의 신뢰성 또한 보장되지 않는다. 따라서 모형을 추정한 후 오차의 독립성을 만족하는지 확인해봐야할 것이다. 독립성을 만족하지 않는다면 오차는 종속성을 갖는다고 볼 수 있다. 시계열 데이터에서 오차는 종종 자기 상관(Autocorrelation)이라는 형태로 종속성을 갖게된다. 따라서 오차의 자기 상관 여부를 검정하는 방법이 필요하다. 이번 포스팅에서는 오차의 자기 상관 존재 여부를 통계적으로 검정하는 Durbin-Watson 검정을 소개한다. 여기서 다루는 내용은 다음과 같다. 1. Durbin-Watson 검정 2. Generalized Durbin-Watson 검정.. 2021. 3. 21.
[논문 리뷰] 4. Generalization of the Durbin-Watson Statistic For Higher Order Autoregressive Processes 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 PC 웹 브라우저 또는 모바일 웹 브라우저에서 보시기 바랍니다. 이번 포스팅에서는 오차의 2차 이상의 자기 상관 여부를 검정할 수 있는 방법을 제시한 Vinod의 논문 "Generalization of the Durbin-Watson Statistic for Higher Order Auturegressive Processes"을 리뷰하고 파이썬으로 구현해보려고 한다. 여기서 다루는 내용은 다음과 같다. Abstract 1. Introduction and Notation 2. Durbin-Watson Theory 3. Generalization of the Statistic for Higher Order .. 2021. 2. 28.
[시계열 분석] 2. 최소 제곱법을 이용한 시계열 분석 with Python 이번 포스팅에서는 기존 최소 제곱법을 이용하여 시계열 데이터를 분석하는 방법과 파이썬(Python)으로 구현하는 방법에 대해서 알아보고자 한다. 여기서 다루는 내용은 다음과 같다. 1. 선형 추세 분석 2. 계절성을 가진 데이터 분석 1. 선형 추세 분석 시계열 데이터 $(Y_t : t=1, \ldots, n)$가 주어졌다고 하자. 이때 $y_t$에 대하여 다음과 같은 가정을 해보자. $$Y_t = \mu_t + X_t$$ 여기서 $\mu_t$는 Deterministic Trend(시간 $t$에 대한 함수라고 생각하자)이고 $X_t$는 평균이 0이고 분산이 $\sigma^2$인 IID(Indepedent and Indentical Distributed) Process이다. - 추정 방법 - 시계열 데이터.. 2021. 2. 24.
[시계열 분석] 1. 시계열 데이터와 정상 과정(Stationary Process) 시계열 데이터가 무엇인지 정상 과정이 무엇인지 공부한 내용을 포스팅해보려고 한다. David Hitchcock 교수님 강의를 참고하였다. 이번 포스팅에서 다루는 내용은 다음과 같다. 1. 시계열 데이터란 무엇인가? 2. Stationary Process 란? 1. 시계열 데이터란 무엇인가? - 정의 - 시계열 데이터는 시간에 따라 같은 시간 간격(Equally Spaced)으로 또는 불규칙적(Unequally Spaced)으로 생산된 데이터를 말하며 데이터 속에 생성된 날짜, 시간 등이 포함된다. - 특징 - 시계열 데이터는 그냥 데이터와 무엇이 다를까? 먼저 시계열 데이터는 일반적으로 이전 데이터와 종속 관계에 있다(Not independent). 또한 현시점에서 얻어진 데이터의 확률 분포는 다른 시점.. 2021. 2. 21.
7. 이상치 탐지(Outlier Detection) - 통계적 검정과 여러가지 판별법 with Python 이번 포스팅에서는 데이터 속에 이상치가 있는지 없는지 테스트해볼 수 있는 통계적 방법과 판별 기준에 대해서 소개한다. 여기서 다루는 내용은 다음과 같다. 1. Grubbs's Test 2. Chauvenet's Criterion 3. Peirce's Criterion 4. Dixon's Q-Test 5. Generalized Extreme Studentized Deviation Test 1. Grubbs's Test - 정의 - Grubbs's Test는 정규분포를 따르는 데이터에서 하나의 이상치를 발견할 수 있는 검정 방법이다. Grubbs's Test는 관측된 데이터가 정규분포로 추출되거나 데이터의 분포가 근사적으로 정규분포를 따른다고 가정한다. 따라서 이 검정법을 수행하기 위해서는 사전에 데이터의 .. 2021. 2. 17.
[논문 리뷰] 3. Gaussian Quadratures for the Integrals 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 PC 웹 브라우저 또는 모바일 웹 브라우저에서 보시기 바랍니다. 이번 포스팅에서는 각종 기대값의 근사치를 구하거나 순서 통계량의 누적 분포를 구할 때 필요한 Gaussian Quadrature 적분 관련 논문인 Steen 외 2명의 논문 'Gaussian Quadratures for the Integrals'을 소개하고 여기에서 제시한 적분 근사 방법을 파이썬으로 구현해보고자 한다. 여기서 다루는 내용은 다음과 같다. Abstract 1. Introduction 2. Computation of Weights and Abscissae 3. Implementation with Python Abstract G.. 2021. 2. 15.
[일반화 선형 모형] 7. 모형 비교 및 모형 적절성 확인 with Python 이번 포스팅에서는 인접 모형(Nested)들을 적합도 측면에서 비교하는 방법과 모형 적합이 실제로 잘되었는지 확인해보는 방법에 대해서 소개하려고 한다. 이 포스팅을 읽기 전에 아래의 내용을 읽어보고 오기 바란다. - Exponential Dispersion Family - 우도 방정식 여기서 다루는 내용은 다음과 같다. 1. Deviance와 Generalized Pearson 통계량 2. 모형 비교 3. 시각적으로 모형 적합 확인 4. 실제 데이터 적용 1. Deviance와 Generalized Pearson 통계량 $y_i$의 확률 분포는 exponential dispersion family라고 하자. 같은 분포에서 독립적으로 관측된 반응 변수 벡터를 $y = (y_1, \ldots, y_n)^t$.. 2021. 2. 10.

맨 위로