학부시절 교수님이 자유도에 대해서 들려주신 에피소드가 있었다.
자유도가 무엇인지 몰랐던 학생이 있었다.
궁금증을 참지 못했던 학생은 교수님께 편지를 보냈다.
"교수님 자유도가 무엇인가요?"
얼마 후 교수님께 답장이 왔다.
편지에는 이렇게 적혀있었다.
"자유도는 degree of freedom이야."
그러자 학생은 다시 교수님께 편지를 보냈다.
"교수님 그렇다면 degree of freedom은 무엇입니까?"
또 얼마 뒤 교수님께 답장이 왔다.
"degree of freedom은 자유도란다."
이 웃지못할 에피소드가 말해주는 것은 자유도라는 개념이 어려워 말로 풀어쓰기 어렵다는 뜻이라고 나는 생각했다.
이번 포스팅에서는 일반화 선형 모형을 공부하는 과정에서 자유도에 대해서 다시 한번 복습할 겸 최대한 이해하기 쉽게 그리고 정확하게 써보려고 한다.
일반적으로 한 벡터의 자유도는 변화할 수 있는 총원소의 개수에서 제약식의 개수를 뺀 것이라고 정의한다. 즉, 완전히 자유롭게 움직일 수 있는 원소의 개수가 그 벡터의 자유도인 것이다.
예를 들어보자. 다음과 같이 $n$개의 원소를 가진 벡터가 있다고 하자.
$$ y_1, y_2, ... , y_n $$
그렇다면 위 벡터의 자유도는 $n$이 된다는 것을 쉽게 알 수 있다. 왜냐하면 벡터의 원소 개수는 $n$개인데 제약식의 개수가 하나도 없기 때문이다.
그렇다면 다음의 $n$개의 원소를 가진 벡터를 살펴보자.
$$y_1-\bar{y}, y_2-\bar{y}, ..., y_n-\bar{y}$$
여기서 $\bar{y}$는 $y_1, ... , y_n$의 표본 평균이다. 이 상황에서 위 벡터의 자유도는 어떻게 될까? 바로 $n-1$이다. 왜냐하면 총 원소의 개수는 $n$개이지만 다음과 같이 위 벡터의 원소로 이루어진 제약식이 하나가 생기기 때문이다.
$$\sum_{i=1}^{n}(y_i-\bar{y})=0$$
사실 여기까지는 대부분 알고 있다. 하지만 선형 회귀 모형에서 제곱합 분해에 나오는 자유도를 어려워하는 분들이 많다. 나 역시 그랬다 ㅠ.ㅠ.
제곱합 분해에서 나오는 자유도에 대해서 정확하게 알아보자. 먼저 우리에게는 다음과 같은 $n$개의 데이터가 있다고 하자.
$$(\tilde{x}_i, y_i), \;\; i=1, 2, ... , n$$
여기서 $\tilde{x}_i=(x_{i1}, ... , x_{ip})$, 즉, $p(<n)$차원 벡터이다.
먼저 우리는 실제 회귀 모형이 다음과 같다고 가정하자.
$$E(y_i|\tilde{x}_i) = \beta_0+\beta_1 x_{i1} + \cdot\cdot\cdot + \beta_p x_{ip}\tag{1}$$
그리고 우리는 최소제곱법으로 $p+1$개의 모수 $\beta_0,\beta_1, ... ,\beta_p$를 추정해야 한다.
여기서 최소제곱법을 이용하여 추정한다는 것은 아래와 같이 편차 제곱합
$$L(\beta_0,\beta_1,...,\beta_p)=\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_{i1}-\cdot\cdot\cdot-\beta_px_{ip})^2$$
최소화하는 $\beta_0,\beta_1, ... ,\beta_p$를 찾는 것이다. 따라서 편차 제곱합 $L$을 각 모수에 대하여 1차 편미분한 값이 0이 되도록 하는 $\beta_0,\beta_1, ..., \beta_p$를 찾아야 한다.
$$ \frac{\partial L}{\partial\beta_0}=0$$ $$\vdots$$ $$\frac{\partial L}{\partial\beta_p}=0$$
위 식을 잘 정리하면 다음과 같이 된다.
$$\frac{\partial L}{\partial\beta_0}=0\;\;\Rightarrow\;\;\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip})=0$$ $$\vdots\tag{$\star$}$$ $$\frac{\partial L}{\partial\beta_p}=0\;\;\Rightarrow\;\;\sum_{i=1}^{n}x_{ip}(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip})=0$$
각 모수에 대한 최소제곱 추정량을 $\hat{\beta}_0, \hat{\beta}_1, ... , \hat{\beta}_p$라고 하자. 그리고 $\tilde{x}_i$가 주어졌을 때 $y_i$의 조건부 기댓값의 추정량을 $\hat{y}_i, i=1,2,...,n$이라 하자. 즉,
$$\hat{y}_i=\hat{\beta}_0+\hat{\beta}_1x_{i1}+\cdot\cdot\cdot+\hat{\beta}_px_{ip}$$
이다.
다음으로 $y_i$를 다음과 같이 분해하자.
$$y_i - \bar{y} = (\hat{y}_i-\bar{y}) + (y_i-\hat{y}_i) \;\; i=1,2,...,n\tag{2}$$
이제 왼쪽과 오른쪽 각각의 성분에 대하여 앞서 정의한 방식으로 자유도를 구할것이다.
먼저 (2) 식의 왼쪽에 있는 $y_i-\bar{y}\;(i=1,...,n)$의 자유도가 $n-1$인 것은 앞에서 살펴보았다.
이제 (2) 식의 오른쪽에 있는 성분들을 하나씩 살펴보자.
먼저 (2)식의 두 번째 성분, 소위 잔차(Residual)라고 불리는 $y_i-\hat{y}_i$의 자유도에 대해서 알아보자. 우리가 계산해야 할 잔차는 총 $n$개가 있으므로 총원소의 개수는 $n$이다. 이제 제약식이 몇개 인지만 알아보면 된다. 잔차를 $\hat{e}_i=y_i-\hat{y}_i, \:(i=1,2,...,n)$이라고 하자. 여기서 $\hat{y}_i$는 최소제곱추정량을 이용해서 구한 것이다. 따라서 앞서 살펴본 $(\star)$에 있는 $p+1$개의 식을 만족해야한다. 이를 잔차를 이용해서 표현하면 다음과 같고 이것이 잔차에 대한 제약식이 된다.
$$\sum_{i=1}^{n}\hat{e}_i=0$$ $$\vdots$$ $$\sum_{i=1}^{n}x_{ip}\hat{e}_i=0$$
따라서 잔차에 대한 자유도는 $n-p-1(=n-(p+1))$이 된다.
즉, 잔체제곱합(Sum of Squares of the residual Error : SSE)인 $\sum_{i=1}^{n}(y_i-\hat{y_i})^2$의 자유도는 $n-p-1$인 것이다.
마지막으로 (2)식의 첫 번째 성분, $\hat{y}_i-\bar{y}$의 자유도를 알아보자. 이 부분이 제일 어렵다. 왜냐하면 이 부분은 (2)식의 왼쪽항과 (2)식 오른쪽 두 번째 항과는 다르기 때문이다. 어떻게 다른지 보자.
먼저, $\bar{y}$는 $y$의 조건부 기대값을 상수라고 가정했을 때 즉,
$$E(y|\tilde{x}_i) = \beta_0 \tag{3}$$
인 경우, $\beta_0$의 최소제곱추정량이 된다.
$$\hat{\beta}_0=\bar{y}$$
이제, (2)식의 왼쪽항 $y_i-\bar{y}$과 (2)식의 오른쪽 두 번째 항 $y_i-\hat{y}_i$의 공통점을 말할 수 있다. 그것은 바로 관측치(observed random variable)와 조건부기대값의 추정치(estimate of conditional mean)의 차이라는 것이다. 이러한 공통점 때문에 $y_i-\bar{y}$와 $y_i-\hat{y}_i$은 총원소에서 제약식의 개수를 빼는 식으로 정의할 수 있었다.
하지만 $\hat{y}_i-\bar{y}$은 관측치와 조건부기대값 추정치 차이가 아니라 조건부기대값의 추정치의 차이를 나타낸다. $\hat{y}_i$는 (1)인 가정하에, $\bar{y}$는 (3)인 가정하에 조건부기대값 추정치이기 때문이다. 따라서 앞서 살펴보았던 것과 같은 방식으로 자유도를 계산할 수 없다. 이것이 핵심이다.
그렇다면 $\hat{y}_i-\bar{y}$의 자유도는 어떻게 계산해야 할까? 먼저 (1)과 (3)이 Nested관계에 있다는 것을 주목해야 한다. Nested라는 말의 뜻은 (1)의 모형이 (3)의 모형을 포함한다는 뜻이다. 왜냐하면 (1)의 모형에서 $\beta_1=\cdots=\beta_p=0$으로 둔다면 (3)의 모형을 얻을 수 있기 때문이다. 즉, (1)을 Full 모형이라 한다면 (3)은 (1)의 Reduced 모형이다.
주저리주저리 말이 많았다. 즉, (1)의 모형은 (3)의 모형보다 $p(=p+1-1)$개 더 많은 변수(extra variable)를 갖고 있고 이것이 $\hat{y}_i-\bar{y}$의 자유도가 된다. 그리고 회귀제곱합(Sum of Squares due to Regression) $\sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2$의 자유도는 $p$가 된다. 따라서, 회귀제곱합의 자유도는 (1)에서의 파라미터 개수와 (3)에서의 파라미터 개수 차이라고 이해하는 것이 편하다.
회귀제곱합의 자유도를 정확히 이야기하려면 $y$의 분포가 정규분포라는 가정이 필요하고 우도비 검정(Likelihood Ratio Test)에 대해서 정확히 알아야 한다. 이 부분을 알아야 회귀제곱합은 자유도가 $p$인 카이제곱분포를 따르게 된다는 것을 보일 수 있다. 이 뿐만 아니라 총 제곱합(Total Sum of Squares)인 $\sum_{i=1}^{n}(y_i-\bar{y})^2$은 자유도가 $n-1$인 카이제곱분포, 잔차제곱합은 자유도가 $n-p-1$인 카이제곱분포를 따르는 것도 보일 수 있으며 이 자유도는 앞서 구했던 자유도와 정확히 일치한다.
나중에 기회가 된다면 이 부분도 복습하여 포스팅하려고 한다.
이번 포스팅을 준비하면서 수식 입력하는 게 너무 힘들었네요. 왜냐하면 복붙하면 에러가 나서 같은 수식도 매번 쳐야 하기 때문이지요 ㅠ.ㅠ. 부디 이번 포스팅을 통해 자유도에 대해서 잘 알아가셨다면 그래도 힘든 보람은 있을 거예요.
'통계 > 기타' 카테고리의 다른 글
ANOVA(Analysis of Variance, 분산분석)에 대해서 알아보자. (7) | 2022.12.06 |
---|---|
통계학이란 무엇인가? (0) | 2022.11.07 |
가중치를 활용한 통계량을 알아보자. 가중 평균(Weighted Mean), 가중 상관계수(Weighted Correlation), 가중 분위수 (Weighted Quantile) (2) | 2022.09.25 |
Profile Likelihood 란 무엇인가?! (408) | 2022.04.30 |
가설 검정과 P Value(유의 확률)에 대하여 알아보자. (1049) | 2021.09.20 |
댓글