본문 바로가기
통계/기타

Profile Likelihood 란 무엇인가?!

by 부자 꽁냥이 2022. 4. 30.

이번 포스팅은 Profile Likelihood란 무엇인지 알아보려고 한다.

 

여기서 다루는 내용은 다음과 같다.

 

1. Profile Likelihood 추정법

2. Profile Likelihood 예제



본 포스팅에서는 수식을 포함하고 있습니다.

티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니

PC 웹 브라우저 또는 모바일 웹 브라우저에서 보시기 바랍니다.



   1. Profile Likelihood 추정법

- Profile Likelihood 탄생 배경 -

먼저 표본 $X_i, i=1, \ldots, n$이 독립이고 동일한 확률 밀도 함수 $f_{\theta}$로부터 추출되었다고 하자. 즉,

$$X_i \sim \text{ i.i.d } f_{\theta}$$

이다. 

 

우리의 목표는 데이터를 이용하여 $\theta$를 우도 추정법을 이용하여 추정하고 싶다. 이를 위해 우리는 보통 로그 우도 함수를 미분하게 되는데 로그 우도 함수 $l(\theta)$는 다음과 같다.

$$l(\theta) = \sum_{i=1}^n \log f_\theta(X_i) \tag{1}$$

이때 $\theta$를 $p$차원 벡터라고 하자. 즉, 추정해야 할 모수는 $p$개인 상황이다. 

 

최대 우도 추정량 $\hat{\theta}$은 Gradient Descent(예 Newton-Raphson 방법 등) 알고리즘을 이용하여 추정하게 된다. 1) 이때 $\theta$에 대한 최적 솔루션(최대 우도 추정량)을 구해야 하는데 대부분의 경우 어렵다. 그리고 2) 때때로 우리의 관심 대상 모수는 전체가 아닌 일부의 모수 집합이다. 이때 관심의 대상이 되는 모수만을 추정하는 문제는 모든 모수의 최대 우도 추정량을 구하는 문제보다 더 쉬워진다.

 

이러한 필요성에 따라 생겨난 것이 바로 Profile Likelihood이다.

- Profile Likelihood의 정의 -

먼저 전체 모수 $\theta$중에서 관심의 대상이 되는 모수를 $\phi$, 나머지 잔챙이 모수를 $\lambda$라 하자. 즉, $\theta^t = (\phi^t, \lambda^t)$이다. 그리고 로그 우도 함수 $l(\theta)$는 다음과 같이 표현할 수 있다.

$$l(\theta) = l(\phi, \lambda) = \sum_{i=1}^n\log f_{(\theta, \lambda)}(X_i)\tag{2}$$

이때 $\phi$를 고정시키고 식 (2)를 최대화하는 $\lambda$를 $\hat{\lambda}(\phi)$라 하자. 이때 $\hat{\lambda}$은 $\phi$의 함수임을 주목하자(지금 이해가 안가더라도 예제를 보면 이해가 될테니 지금은 받아들이기로 하자). 즉, 

$$\DeclareMathOperator*{\argmaxA}{arg\,max} \hat{\lambda}(\phi) = \argmaxA_\lambda l(\phi, \lambda) = \argmaxA_\lambda l_{\phi}(\lambda)$$

이때 로그 우도 함수가 $\lambda$에 대한 함수라는 것을 강조하기 위하여 $l_{\phi}(\lambda)$으로 표기했다. 

 

이제 $\hat{\lambda}(\phi)$를 식 (2)에 대입(Plug-in)한다. 그렇다면 $\phi$에 대한 로그 우도 함수 $l_{\phi}(\hat{\lambda}(\phi))$를 생각할 수 있는데 이를 $\phi$에 대한 Profile Likelihood라고 한다.

- Profile Likelihood 추정법 -

Profile Likelihood 추정은 로그 우도 함수 $l_{\phi}(\hat{\lambda}(\phi))$를 최대화하는 $\phi$를 찾는 방법을 말한다.

 

Profile Likelihood 추정법으로 추정한 $(\hat{\phi}, \lambda_{\hat{\phi}})$은 $\theta$의 최대 우도 추정량이 된다고 한다.


   2. Profile Likelihood 예제

1. 정규 분포

$X_i \sim \text{ i.i.d }N(\mu, \sigma^2) , i=1, \ldots, n$이고 우리의 관심 대상 모수는 $\mu$라고 하자. 그렇다면 관심이 없는(nuisance) 모수는 $\sigma^2$이 된다.

이제 Profile Likelihood를 계산해보자. 먼저 일반적인 로그 우도 함수는 다음과 같다(모수와 상관없는 상수는 제외함).

$$l(\mu, \sigma^2) = -\frac{n}{2}\log \sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2\tag{3}$$

먼저 $\mu$를 고정시키고 식 (3)을 최대화하는 $\hat{\sigma}^2(\mu)$은 다음과 같다.

$$\hat{\sigma}^2(\mu) = \frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2$$

이제 $\hat{\sigma}^2(\mu)$을 식 (3)에 넣으면 $\mu$의 Profile Likelihood는 다음과 같이 얻을 수 있다.

$$l_{\mu}(\hat{\sigma}^2(\mu)) = l(\mu, \hat{\sigma}^2(\mu)) = -\frac{n}{2}\log \left [\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2 \right ]-\frac{n}{2}\tag{4}$$

식 (4)를 최대화하는, 즉 Profile Likelihood 최대화하는 추정량은 $\hat{\mu}=\sum_{i=1}^nx_i/n$이다. 우리가 알고 있는 최대 우도 추정량과 같다.


2. Weibull 분포

이번엔 $X_i \sim \text{ i.i.d } W(\alpha, \theta)$라 하자. Weibull 분포의 확률 밀도 함수는 다음과 같다.

$$f(x; \alpha, \theta) = \frac{\alpha x^{\alpha-1}}{\theta^\alpha}\exp \left \{ -\left (\frac{x}{\theta} \right )^\alpha \right \}$$

 

여기서 관심 대상은 $\alpha$라고 하자. 이때 로그 우도 함수 $l_{\alpha}(\theta)$를 최대화하는 $\theta(\alpha)$를 $\hat{\theta}(\alpha)$라고 하자.

$$\DeclareMathOperator*{\argmaxA}{arg\,max} \begin{align} \hat{\theta}(\alpha) &= \argmaxA_{\theta} l_{\alpha}(\theta) \\ &= \argmaxA_\theta = \sum_{i=1}^n\left ( \log\alpha+(\alpha - 1)\log x_i-\alpha\log\theta- \left (\frac{x_i}{\theta} \right )^{\alpha}  \right )  \\ &= \argmaxA_\theta \sum_{i=1}^n \left( -\alpha \log \theta - \left (\frac{x_i}{\theta} \right )^{\alpha}   \right )  = \left ( \frac{1}{n} \sum_{i=1}^nx_i^{\alpha} \right )^{1/\alpha} \end{align} $$

세번째 등식은 $\theta$와 상관없는 부분을 제거한 것이다. 이제 $\alpha$의 Profile Likelihood는 다음과  같다.

$$l_{\alpha}(\hat{\theta}(\alpha)) = \sum_{i=1}^n\left ( \log\alpha+(\alpha-1)\log x_i - \alpha \log \hat{\theta}(\alpha) - \left ( \frac{x_i}{\hat{\theta}(\alpha)} \right )^{\alpha} \right )\tag{5}$$

$\alpha$의 Profile Likelihood 추정량은 위의 식 (5)를 최대화하는 $\alpha$이다.

 

확실히 식이 복잡해 보이지만 $\alpha, \theta$를 동시에 찾는 것보다는 나아 보인다.


참고자료

Texas A&M 대학교 통계자료-https://web.stat.tamu.edu/~suhasini/teaching613/chapter3.pdf


댓글


맨 위로