본문 바로가기
통계/일반화 선형 모형

[일반화 선형 모형(Generalized Linear Model)] 1. 일반화 선형 모형 소개

by 부자 꽁냥이 2020. 7. 14.

오늘은 일반화 선형 모형(Generalized Linear Model : GLM)에 대해서 알아보려고 한다.

 

1. 정의

2. 구성 요소


이 포스팅은 꽁냥이가 일반화 선형 모형에 대해 공부한 내용을 정리하는 곳입니다~~

 

본 포스팅에서는 수식을 포함하고 있습니다.

티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니

웹 브라우저 또는 모바일 웹에서 보시기바랍니다.


LIST

   1. 정의

먼저 일반화 선형 모형(Generalized Linear Model : GLM)의 정의를 내리기 전에 우리가 잘 알고 있는 선형 회귀 모형에 대해서 생각해보자.

일반적인 선형 회귀 모형은 다음과 같은 가정을 한다.


1) 반응 변수의 평균과 설명 변수 사이의 관계는 선형이다.

2) 반응 변수의 분포는 정규분포를 따른다. 


 

이를 수식으로 나타내면 다음과 같다.

 

$$E(y_i) = \beta_0 + \sum_{j=1}^p\beta_jx_{ij} \tag{1}$$

$$y_i \sim N(\beta_{0}+\sum_{j=1}^p\beta_{j}x_{ij},\:\sigma_{i}^2), \;\;i=1,...,n, \;\;j=1,...,p \tag{2}$$

 

여기서 $n$은 관측치의 개수, $p$는 변수의 개수이다.

 

먼저 선형 모형을 위에서 소개한 선형 회귀 모형이라고 해보자. 그렇다면 일반화 선형 모형은 선형 모형을 확장한 거라고 볼 수 있다.


그렇다면 구체적으로 어떤 것을 확장했다는 뜻일까?


이에 대한 단서는 위의 2가지 가정에 있다. 첫 번째 가정을 보면 반응 변수의 평균과 설명변수 사이의 관계를 선형이라고 했다. 이것을 반응 변수 평균의 함수와 설명변수 사이를 선형이라고 확장할 수 있다. 즉, 수식 $(1)$을 아래와 같이 함수 $g$를 이용하여 확장하는 것이다.

$$ g(E(y_i)) = \beta_0 + \sum_{j=1}^p\beta_jx_{ij}$$

 

다음으로 두 번째 가정은 반응 변수의 분포는 정규분포라는 것인데, 이를 정규분포뿐 아니라 다른 확률분포(이항 분포, 포아송 분포 등)도 고려하는 것으로 확장할 수 있다.

 

이제 일반화 선형 모형의 정의를 할 수 있다.


일반화 선형 모형이란

기존의 선형 회귀 모형에서 반응 변수의 분포를 정규분포를 포함한 여러 분포로 확장하고

기존 반응변수 평균과 설명변수의 선형 관계를 반응변수 평균의 함수와 설명변수의 선형 관계로

확장한 모형이라고 할 수 있다.


반응형

   2. 구성 요소

지금부터는 일반화 선형 모형을 GLM이라 칭하겠다.

 

GLM의 구성 요소는 다음과 같다.


1) 확률 요소(Random Component)

2) 선형 예측자(Linear Predictor)

3) 연결 함수(Link function)


1) 확률 요소(Random Component)

GLM에서 확률 요소는 반응 변수 $\mathbf{y} = (y_1,y_2,...,y_n)^t$이며 확률이라는 단어는 이 반응 변수가 확률분포를 가지고 있다는 것을 의미한다. GLM에서는 반응 변수의 확률분포를 지수족(Exponential Family)에서 가져온다. 지수족에 대한 설명은 여기를 참고하자.

 

지수족을 고려하는 이유는 모형 우도 방정식(Model Likelihood Equation), 추정량의 점근 분포(Asymptotic Distribution) 그리고 모형 적합 알고리즘 이 3가지에 대한 일반적인 표현식을 얻을 수 있다. 추정량의 점근 분포는 정규분포이며 우도 방정식과 모형 적합 알고리즘 표현식은 추후 포스팅에서 세세하게 다룰 것이다.

 

※ 참고

추가적으로 확률분포가 지수족이라면 충분 통계량을 쉽게 구할 수 있다. 또한 최대 우도 추정량(Maximum Likelihood Estimator : MLE)은 유일하게 존재하고 일치성(Consistency)을 만족하며 점근적으로 정규분포(Asymptotic Normal Distribution)을  따른다는 좋은 성질을 갖고 있다. 이에 대한 내용은 여기에서 정리 16.1을 참고하자.

2) 선형 예측자(Linear Predictor)

선형 예측자는 설계 행렬(Design Matrix)과 Parameter의 선형 결합을 의미한다. 여기서 Parameter라는 것은 우리가 추정하기를 원하는 대상이며 이를 $\mathbf{\beta}=(\beta_1,\beta_2,...,\beta_p)^t$라고 하자, 그리고 설계 행렬 $\mathbf{X}$는 $n\times p$ 행렬이며 $p$개의 변수에 대하여 각각 $n$개의 관측치를 포함한다.  여기서 선형 예측자는 $\mathbf{X}\beta$가 된다.

3) 연결 함수(Link function)

연결 함수 $g$는 선형 예측자 $\mathbf{X}\beta$와 반응 변수의 기댓값 $E(\mathbf{y})$을 다음과 같이 연결해주는 함수이다.

 

$$g(E(\mathbf{y})) = \mathbf{X}\hat{\beta}$$

 

특히 연결 함수가 가져야 할 성질이 있는데 그것은 단조성(monotonicity)과 미분가능성(differentiability)이다. 


이러한 성질이 왜 필요할까?


먼저 단조성이 왜 필요한가에 대하여 생각해보았다.

 

일반화 선형 모형을 적합한다는 것은 데이터를 통해 Parameter $\beta$를 추정한다는 것이다.

그렇게 해서 얻은 추정량 $\hat{\beta} = (\hat{\beta_1},\hat{\beta_2},...,\hat{\beta_p})$라고 한다면 $g(E(\mathbf{y}))$의 추정량은 다음과 같다.

$$\widehat{g(E(\mathbf{y}))} = \mathbf{X}\hat{\beta}$$

이를 원소로 나타내면 다음과 같다.

$$\widehat{g(E(y_i))} = \sum_{j=1}^px_{ij}\hat{\beta_j},\;\;i=1,2,...,n$$

문제가 되는 건 이다음이다!!

바로 $\hat{\beta_j}$에 대한 해석이다. 만약에 $g$가 identity function이라면 이것은 선형 회귀 모형과 같아지게 되고 $\hat{\beta_j}$는 $j$번째를 제외한 모든 변수는 고정시킨 상태에서 $j$번째 설명변수가 한 단위 변할 때 평균적인 반응 변수의 변화량이라고 할 수 있을 것이다. 근데 일반화 선형 모형에서는 이 $g$라는 녀석이 붙어 있어서 참 난감하다.

 

근데 만약 $g$가 단조함수라면 설명변수의 증가에 따른 반응변수 평균의 증감에 대한 해석은 할 수 있게 된다. 즉,


반응변수의 변화량까지는 모르더라도

설명변수가 증가하면 반응변수 평균이 증가하는지 또는 감소하는지를 알 수 있다.


그래서 연결 함수가 가져야할 하나의 성질로 단조성이 있는 것이라고 생각했다.

 

내 생각에는 연결함수가 그냥 단조성보다 더 강한 성질인 Strict monotonicity를 만족하면 더 좋을 것 같다. 그 이유는 strict monotonicity가 돼야 역함수가 존재하게 되고 반응 변수의 추정값을 이 역함수를 통하여 알 수 있기 때문이다.

$$\widehat{g(E(\mathbf{y}))} = \mathbf{X}\hat{\beta} \Rightarrow \widehat{E(\mathbf{y})}=g^{-1}(\mathbf{X}\hat{\beta})$$

 

참고로 strict가 아닌 그냥 monotone함수는 역함수의 존재를 보장하지 못한다.

 

두 번째로 미분가능성은 모형 적합 알고리즘을 구하기 위해서 필요하다. GLM에서는 모형을 적합할 때 Iterative Weighted Least Square(IWLS) 알고리즘을 사용하는데 이 알고리즘을 유도할 때 필요한 것이 바로 연결 함수의 1차 도함수이다. 뒤에 모형 적합 알고리즘을 공부하면 더 명확해지겠지..


GLM을 마스터하는 그날까지~ 열심히 공부해보자!!

 

참고 자료

Foundations of Linear and Generalized Linear Models(2015) 저자 : Alan Argresti, 출판사 : WILEY


댓글


맨 위로