통계/일반화 선형 모형7 [일반화 선형 모형] 7. 모형 비교 및 모형 적절성 확인 with Python 이번 포스팅에서는 인접 모형(Nested)들을 적합도 측면에서 비교하는 방법과 모형 적합이 실제로 잘되었는지 확인해보는 방법에 대해서 소개하려고 한다. 이 포스팅을 읽기 전에 아래의 내용을 읽어보고 오기 바란다. - Exponential Dispersion Family - 우도 방정식 여기서 다루는 내용은 다음과 같다. 1. Deviance와 Generalized Pearson 통계량 2. 모형 비교 3. 시각적으로 모형 적합 확인 4. 실제 데이터 적용 1. Deviance와 Generalized Pearson 통계량 $y_i$의 확률 분포는 exponential dispersion family라고 하자. 같은 분포에서 독립적으로 관측된 반응 변수 벡터를 $y = (y_1, \ldots, y_n)^t$.. 2021. 2. 10. [일반화 선형 모형(Generalized Linear Model)] 6. Count 데이터 - Poisson Log Linear Model 적합하기 with Python 반응 변수 중에는 특정 기간 동안에 발생한 특정 사건 횟수 정보가 담긴 경우가 종종 있다. 예를 들어 1주일에 음주 횟수, 담배 흡연 횟수 등이 있다. 이처럼 횟수 정보를 가지는 반응 변수는 포아송(Poisson) 분포를 따른다고 볼 수 있다. 일반화 선형 모형은 반응 변수가 포아송 분포를 따르는 경우에 적합한 모형을 제공한다. 이번 포스팅에서는 포아송 분포를 따르는 반응 변수에 대하여 모형을 적합하는 방법을 소개한다. 여기서 다루는 내용은 다음과 같다. 1. 모형 적합 알고리즘 유도 2. 실제 데이터 적용 1. 모형 적합 알고리즘 유도 먼저 모형 적합 알고리즘에 일반적인 내용을 다룬 포스팅이 있으니 반드시 읽어보기 바란다. 우도방정식과 모형 적합 우리에게 데이터 $(\tilde{x}_i, y_i), \.. 2021. 1. 16. [일반화 선형 모형(Generalized Linear Model)] 5. Ungrouped Binary 데이터에 모형 적합하기 with Python 이번 포스팅에서는 이전 포스팅에서 다룬 Grouped Binary 데이터의 특수한 케이스인 Ungrouped Binary 데이터에 대하여 GLM을 적합시키는 방법에 대해 알아보려고 한다. 먼저 우도 방정식과 모형 적합에 관한 내용을 여기에 다루었으니 반드시 읽어보자. 여기서 다루는 내용은 다음과 같다. 1. Ungrouped Binary 데이터란? 2. 모형 적합 알고리즘 유도 3. 실제 데이터 적용 1. Ungrouped Binary 데이터란? Ungrouped Binary 데이터란 데이터 하나에 대하여 2개의 범주를 갖는 반응 변수가 하나 있는 것이다. 말을 어렵게 했는데 지도학습(Supervised Learning)에서 2진(Binary) 분류 모형을 만들기 위해 사용하는 학습 데이터라고 생각하면 .. 2021. 1. 1. [일반화 선형 모형(Generalized Linear Model)] 4. Grouped Binary 데이터에 모형 적합하기 with Python 이번 포스팅에서는 Grouped Binary(GB) 데이터가 주어졌을 때 GLM 모형을 적합하는 방법에 대하여 알아보려고 한다. GLM 모형 적합에 대한 내용은 여기를 참고하기 바란다. 여기서 다루는 내용은 다음과 같다. 1. Grouped Binary 데이터란? 2. 모형 적합 알고리즘 유도 3. 실제 데이터 적용 1. Grouped Binary 데이터란? Grouped Binary 데이터가 생소할 수도 있으니 이것이 무엇인지 확인해보자. Binary라는 것은 관심의 대상이 되는 변수가 2개의 클래스를 갖는 범주형 데이터를 의미한다. Grouped Binary 데이터는 각 그룹별로 Binary 데이터의 개수와 관심 범주의 비율로 이루어진 데이터를 의미한다. 물론 각 그룹별 설명변수도 있을 수 있다. 예.. 2021. 1. 1. [일반화 선형 모형(Generalized Linear Model)] 3. 우도방정식과 모형 적합(Model Fitting) 이번 포스팅에서는 일반화선형모형(Generalized Linear Model : GLM)에 대한 우도방정식(Likelihood Equation)과 반응(Response) 변수의 확률밀도함수가 Exponential Dispersion Family일때 일반화 선형 모형을 적합하는 과정에 대해서 정리하겠다. Exponential Dispersion Family에 대한 설명은 여기를 참고하기 바란다. 이번 포스팅을 이해하기 위해서 이전 포스팅을 복습하고 오면 좋다. [일반화 선형 모형(Generalized Linear Model)] 2. Exponential Dispersion Family에 대하여 [일반화 선형 모형(Generalized Linear Model)] 1. 일반화 선형 모형 소개 목차 1. 우도 .. 2020. 11. 21. [일반화 선형 모형(Generalized Linear Model)] 2. Exponential Dispersion Family에 대하여 이번 포스팅에서는 Exponential Dispersion Family에 대해서 공부한 내용이다. 여기서 다루는 내용은 다음과 같다. 1. Exponential Dispersion Family의 정의 2. Exponential Dispersion Family의 예 1. Exponetial Dispersion Family의 정의 Exponential Dispersion Family는 모수적 확률분포(Parametric Probability Distribution)의 모임으로써 확률밀도함수가 다음과 같은 형태를 취한다. $$f(y ; \theta, \phi) = \exp \{[y\theta-b(\theta)]/a(\phi)+c(y,\phi)\}\tag{1}$$ 여기서 $\theta$는 natural para.. 2020. 9. 20. [일반화 선형 모형(Generalized Linear Model)] 1. 일반화 선형 모형 소개 오늘은 일반화 선형 모형(Generalized Linear Model : GLM)에 대해서 알아보려고 한다. 1. 정의 2. 구성 요소 이 포스팅은 꽁냥이가 일반화 선형 모형에 대해 공부한 내용을 정리하는 곳입니다~~ 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 웹 브라우저 또는 모바일 웹에서 보시기바랍니다. 1. 정의 먼저 일반화 선형 모형(Generalized Linear Model : GLM)의 정의를 내리기 전에 우리가 잘 알고 있는 선형 회귀 모형에 대해서 생각해보자. 일반적인 선형 회귀 모형은 다음과 같은 가정을 한다. 1) 반응 변수의 평균과 설명 변수 사이의 관계는 선형이다. 2) 반응 변수의 분포는 정규분포를 따른다. 이를 수식으로.. 2020. 7. 14. 이전 1 다음