본문 바로가기
통계/기타

자유도에 대해서 정확하게 파헤쳐 보자!

by 부자 꽁냥이 2020. 8. 23.

학부시절 교수님이 자유도에 대해서 들려주신 에피소드가 있었다.

 


자유도가 무엇인지 몰랐던 학생이 있었다.

궁금증을 참지 못했던 학생은 교수님께 편지를 보냈다.

 

"교수님 자유도가 무엇인가요?"

 

얼마 후 교수님께 답장이 왔다.

편지에는 이렇게 적혀있었다.

 

"자유도는 degree of freedom이야."

 

그러자 학생은 다시 교수님께 편지를 보냈다.

 

"교수님 그렇다면 degree of freedom은 무엇입니까?"

 

또 얼마 뒤 교수님께 답장이 왔다.

 

"degree of freedom은 자유도란다."


이 웃지못할 에피소드가 말해주는 것은 자유도라는 개념이 어려워 말로 풀어쓰기 어렵다는 뜻이라고 나는 생각했다.

 

이번 포스팅에서는 일반화 선형 모형을 공부하는 과정에서 자유도에 대해서 다시 한번 복습할 겸 최대한 이해하기 쉽게 그리고 정확하게 써보려고 한다. 

반응형

일반적으로 한 벡터의 자유도는 변화할 수 있는 총원소의 개수에서 제약식의 개수를 뺀 것이라고 정의한다. 즉, 완전히 자유롭게 움직일 수 있는 원소의 개수가 그 벡터의 자유도인 것이다. 

 

예를 들어보자. 다음과 같이 $n$개의 원소를 가진 벡터가 있다고 하자.

$$ y_1, y_2, ... , y_n $$

그렇다면 위 벡터의 자유도는 $n$이 된다는 것을 쉽게 알 수 있다. 왜냐하면 벡터의 원소 개수는 $n$개인데 제약식의 개수가 하나도 없기 때문이다.

 

그렇다면 다음의 $n$개의 원소를 가진 벡터를 살펴보자.

$$y_1-\bar{y}, y_2-\bar{y}, ..., y_n-\bar{y}$$

여기서 $\bar{y}$는 $y_1, ... , y_n$의 표본 평균이다. 이 상황에서 위 벡터의 자유도는 어떻게 될까? 바로 $n-1$이다. 왜냐하면 총 원소의 개수는 $n$개이지만 다음과 같이 위 벡터의 원소로 이루어진 제약식이 하나가 생기기 때문이다.

$$\sum_{i=1}^{n}(y_i-\bar{y})=0$$


사실 여기까지는 대부분 알고 있다. 하지만 선형 회귀 모형에서 제곱합 분해에 나오는 자유도를 어려워하는 분들이 많다. 나 역시 그랬다 ㅠ.ㅠ. 

 

제곱합 분해에서 나오는 자유도에 대해서 정확하게 알아보자. 먼저 우리에게는 다음과 같은 $n$개의 데이터가 있다고 하자.

$$(\tilde{x}_i, y_i), \;\; i=1, 2, ... , n$$

여기서 $\tilde{x}_i=(x_{i1}, ... , x_{ip})$, 즉, $p(<n)$차원 벡터이다.

 

먼저 우리는 실제 회귀 모형이 다음과 같다고 가정하자.

$$E(y_i|\tilde{x}_i) = \beta_0+\beta_1 x_{i1} + \cdot\cdot\cdot + \beta_p x_{ip}\tag{1}$$

그리고 우리는 최소제곱법으로 $p+1$개의 모수 $\beta_0,\beta_1, ... ,\beta_p$를 추정해야 한다. 

 

여기서 최소제곱법을 이용하여 추정한다는 것은 아래와 같이 편차 제곱합

$$L(\beta_0,\beta_1,...,\beta_p)=\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_{i1}-\cdot\cdot\cdot-\beta_px_{ip})^2$$

최소화하는 $\beta_0,\beta_1, ... ,\beta_p$를 찾는 것이다. 따라서 편차 제곱합 $L$을 각 모수에 대하여 1차 편미분한 값이 0이 되도록 하는 $\beta_0,\beta_1, ..., \beta_p$를 찾아야 한다.

$$ \frac{\partial L}{\partial\beta_0}=0$$ $$\vdots$$ $$\frac{\partial L}{\partial\beta_p}=0$$

위 식을 잘 정리하면 다음과 같이 된다.

$$\frac{\partial L}{\partial\beta_0}=0\;\;\Rightarrow\;\;\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip})=0$$ $$\vdots\tag{$\star$}$$ $$\frac{\partial L}{\partial\beta_p}=0\;\;\Rightarrow\;\;\sum_{i=1}^{n}x_{ip}(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip})=0$$

 

각 모수에 대한 최소제곱 추정량을 $\hat{\beta}_0, \hat{\beta}_1, ... , \hat{\beta}_p$라고 하자. 그리고 $\tilde{x}_i$가 주어졌을 때 $y_i$의 조건부 기댓값의 추정량을 $\hat{y}_i, i=1,2,...,n$이라 하자. 즉,

$$\hat{y}_i=\hat{\beta}_0+\hat{\beta}_1x_{i1}+\cdot\cdot\cdot+\hat{\beta}_px_{ip}$$

이다.

 

다음으로 $y_i$를 다음과 같이 분해하자.

$$y_i - \bar{y} = (\hat{y}_i-\bar{y}) + (y_i-\hat{y}_i) \;\; i=1,2,...,n\tag{2}$$

이제 왼쪽과 오른쪽 각각의 성분에 대하여 앞서 정의한 방식으로 자유도를 구할것이다.

 

먼저 (2) 식의 왼쪽에 있는 $y_i-\bar{y}\;(i=1,...,n)$의 자유도가 $n-1$인 것은 앞에서 살펴보았다.

 

이제 (2) 식의 오른쪽에 있는 성분들을 하나씩 살펴보자.

 

먼저 (2)식의 두 번째 성분, 소위 잔차(Residual)라고 불리는 $y_i-\hat{y}_i$의 자유도에 대해서 알아보자. 우리가 계산해야 할 잔차는 총 $n$개가 있으므로 총원소의 개수는 $n$이다. 이제 제약식이 몇개 인지만 알아보면 된다. 잔차를 $\hat{e}_i=y_i-\hat{y}_i, \:(i=1,2,...,n)$이라고 하자. 여기서 $\hat{y}_i$는 최소제곱추정량을 이용해서 구한 것이다. 따라서 앞서 살펴본 $(\star)$에 있는 $p+1$개의 식을 만족해야한다. 이를 잔차를 이용해서 표현하면 다음과 같고 이것이 잔차에 대한 제약식이 된다.

$$\sum_{i=1}^{n}\hat{e}_i=0$$ $$\vdots$$ $$\sum_{i=1}^{n}x_{ip}\hat{e}_i=0$$

따라서 잔차에 대한 자유도는 $n-p-1(=n-(p+1))$이 된다. 

 

즉, 잔체제곱합(Sum of Squares of the residual Error : SSE)인 $\sum_{i=1}^{n}(y_i-\hat{y_i})^2$의 자유도는 $n-p-1$인 것이다.

 

마지막으로 (2)식의 첫 번째 성분, $\hat{y}_i-\bar{y}$의 자유도를 알아보자. 이 부분이 제일 어렵다. 왜냐하면 이 부분은 (2)식의 왼쪽항과 (2)식 오른쪽 두 번째 항과는 다르기 때문이다. 어떻게 다른지 보자.

 

먼저, $\bar{y}$는 $y$의 조건부 기대값을 상수라고 가정했을 때 즉,

$$E(y|\tilde{x}_i) = \beta_0 \tag{3}$$

인 경우, $\beta_0$의 최소제곱추정량이 된다.

$$\hat{\beta}_0=\bar{y}$$

 

이제, (2)식의 왼쪽항 $y_i-\bar{y}$과 (2)식의 오른쪽 두 번째 항 $y_i-\hat{y}_i$의 공통점을 말할 수 있다. 그것은 바로 관측치(observed random variable)와 조건부기대값의 추정치(estimate of conditional mean)의 차이라는 것이다. 이러한 공통점 때문에 $y_i-\bar{y}$와 $y_i-\hat{y}_i$은 총원소에서 제약식의 개수를 빼는 식으로 정의할 수 있었다.

 

하지만 $\hat{y}_i-\bar{y}$은 관측치와 조건부기대값 추정치 차이가 아니라 조건부기대값의 추정치의 차이를 나타낸다. $\hat{y}_i$는 (1)인 가정하에, $\bar{y}$는 (3)인 가정하에 조건부기대값 추정치이기 때문이다. 따라서 앞서 살펴보았던 것과 같은 방식으로 자유도를 계산할 수 없다. 이것이 핵심이다.

 

그렇다면 $\hat{y}_i-\bar{y}$의 자유도는 어떻게 계산해야 할까? 먼저 (1)과 (3)이 Nested관계에 있다는 것을 주목해야 한다. Nested라는 말의 뜻은 (1)의 모형이 (3)의 모형을 포함한다는 뜻이다. 왜냐하면 (1)의 모형에서 $\beta_1=\cdots=\beta_p=0$으로 둔다면 (3)의 모형을 얻을 수 있기 때문이다. 즉, (1)을 Full 모형이라 한다면 (3)은 (1)의 Reduced 모형이다. 

 

주저리주저리 말이 많았다. 즉, (1)의 모형은 (3)의 모형보다 $p(=p+1-1)$개 더 많은 변수(extra variable)를 갖고 있고 이것이 $\hat{y}_i-\bar{y}$의 자유도가 된다. 그리고 회귀제곱합(Sum of Squares due to Regression) $\sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2$의 자유도는 $p$가 된다. 따라서, 귀제곱합의 자유도는 (1)에서의 파라미터 개수와 (3)에서의 파라미터 개수 차이라고 이해하는 것이 편하다.

회귀제곱합의 자유도를 정확히 이야기하려면 $y$의 분포가 정규분포라는 가정이 필요하고 우도비 검정(Likelihood Ratio Test)에 대해서 정확히 알아야 한다. 이 부분을 알아야 회귀제곱합은 자유도가 $p$인 카이제곱분포를 따르게 된다는 것을 보일 수 있다. 이 뿐만 아니라 총 제곱합(Total Sum of Squares)인 $\sum_{i=1}^{n}(y_i-\bar{y})^2$은 자유도가 $n-1$인 카이제곱분포, 잔차제곱합은 자유도가 $n-p-1$인 카이제곱분포를 따르는 것도 보일 수 있으며 이 자유도는 앞서 구했던 자유도와 정확히 일치한다.

 

나중에 기회가 된다면 이 부분도 복습하여 포스팅하려고 한다.


이번 포스팅을 준비하면서 수식 입력하는 게 너무 힘들었네요. 왜냐하면 복붙하면 에러가 나서 같은 수식도 매번 쳐야 하기 때문이지요 ㅠ.ㅠ. 부디 이번 포스팅을 통해 자유도에 대해서 잘 알아가셨다면 그래도 힘든 보람은 있을 거예요.


댓글


맨 위로