본문 바로가기
통계/논문 리뷰

A Unified Approach to Interpreting Model Predictions

by 부자 꽁냥이 2022. 8. 15.

오늘은 SHAP의 논문 "A Unified Approach to Interpreting Model Predictions"을 읽고 정리한 것을 적어본다.

 

- 목차 -

1. Introduction

2. Additive Feature Attribution Methods

3. Simple Properties Uniquely Determine Additive Feature Attribution

4. SHAP(SHapley Additive exPlanation) Values

5. Computational and User Study Experiments

6. Conclusion


   1. Introduction

요즘은 복잡한 예측 모형의 해석을 위한 방법들이 제공되고 있다. 하지만 어느 방법이 다른 방법보다 좋은지에 대한 이해는 부족하다. 본 논문의 저자는 예측 모델 해석에 대한 통합된 방법론을 제안한다.


   2. Additive Feature Attribution Methods

단순한 모델의 최선의 해석은 모델 그 자체가 될 것이다. 선형 모형을 생각해보자. 선형 모형 그 자체의 회귀식이 훌륭한 해석이 되는 것이다. 복잡한 모델, 예를 들면 앙상블 모형이나 딥러닝 모델 같은 것들은 모형 그 자체로는 해석이 불가능하다.

 

따라서 해석이 가능한 Explanation Model(EM)을 생각하게 된다. EM은 실제 오리지날 모형을 잘 근사하면서 해석이 쉬운 모형으로 정의한다.

 

이 섹션에서는 현재 6개 정도의 EM을 소개한다고 한다. 

 

먼저 $f$를 오리지날 예측 모형이라고 하고 $g$를 $f$의 EM이라고 하자. 즉, $g$는 $f$를 잘 근사하면서 해석력이 좋은 모형을 의미한다. 여기서는 Local 방법에 중점을 둔다. EM은 단순화된 입력(Simplified Input) $x'$로 표현된다. $x'$은 매핑 $h_x$에 의해 오리지널 입력 $x$으로 변환된다. 즉, $x=h_x(x')$. 여기서 Local 방법은 $z'\approx x'$이면 $g(z') \approx f(h_x(z'))$을 보장한다. $h_x$의 구체적인 수식은 없고 그냥 예를 들어서 말로 풀었다. 욕이 나온다. ㅠㅠ

 

정의 1. Additive Feature Attribution Methods(AFAM)

AFAM이라 함은 이진 변수들의 선형 결합으로 표현되는 EM $g$가 있다는 것을 의미한다.

$$g(z') = \phi_0+\sum_{i=1}^M\phi_i z_i'$$

여기서 $z'\in \{0,1\}^M$, $M$은 Feature(설명 변수)의 개수, $\phi_i$는 실수이다.

 

AFAM은 $z_i'$를 $i$번째 변수의 존재 유무를 나타낸다면 각 Feature의 기여도 $\phi_i$를 $\phi_i$로 해석할 수 있다.

 

2.1 LIME

LIME(Local Interpretable Model-agnostic Explanations)은 AFAM으로 주어진 입력 $x$의 출력값 $f(x)$의 Local한 해석을 할 수 있도록 만들어진 방법론이다.

 

$\phi_i, i=0, 1, \ldots, M$을 찾기 위해 LIME은 다음의 목적함수를 최소화하는 EM $g$를 찾게 된다.

$$\DeclareMathOperator*{\argminA}{arg\,min} \argminA_{g\in \mathcal{G}} \left ( L(f, g, \pi_{x'}) + \Omega (g) \right ) \tag{2}$$

여기서 $L$은 손실 함수, $\phi_{x'}$는 단순화 입력 $x'$의 가중치 함수(Local Kernel) 그리고 $\Omega$는 $g$의 복잡도를 나타내는 함수이다(예: $g$가 선형 회귀 모형인 경우 파라미터 개수). 

 

2.2 DeepLift

Deep Learning 모형을 위한 AFAM이라고 한다. 

 

2.3 Layer-Wise Relavance Propagation

이 또한 AFAM이며 DeepLift에서 레퍼런스 값을 모두 0으로 세팅했을 경우 Layer-Wise RElavance Propagation은 DeepLift와 동일하다고 한다.

 

2.4 Classic Shapley Value Estimation

앞에서 소개한 3가지 방법은 모형 예측의 설명력을 계산하기 위해 협력 게임 이론에서의 고전 방정식을 사용한다고 한다. Shapley Regression Value(SRV), Shapley Sampling Values(SSV) 그리고 Quantitative Input Influence(QII)가 그것이다.

 

SSV는 다중공선성이 존재하는 경우 선형 모형의 변수 중요도를 말한다. 이 방법은 Feature Subset $S\subset F$으로 모형을 재학습하는 과정이 필요하다. 여기서 $F$는 모든  설명 변수의 집합이다. 개별 변수 중요도 $\phi_i$는 다음과 같이 계산된다.

$$\phi_i = \sum_{S\subset F - \{i\}} \frac{|S|!(|F|-|S|-1)!}{|F|!}[ f_{S\cup \{i\}}(x_{S\cup \{i\}})-f_S(x_S) ] \tag{4}$$

 

이때 $\phi_0 = f_{\emptyset}(\emptyset)$으로 설정하면 SSV 또한 AFAM이라고 한다. 저 $\phi_0$가 뭔 말인지 모르겠다. 욕이 나온다..

 

SSV는 샘플링과 Marginalization을 통해 이용하여 (4)를 계산한다. 이를 이용하면 (4)의 계산량을 줄여주게 된다. SSV도 SRV와 같아서 AFAM이 된다.

 

QII는 SSV와 거의 동일한 방법이라고 하며 이 또한 AFAM이라고 한다.


   3. Simple Properties Uniquely Determine Additive Feature Attribution

여기에서 소개할 3가지 성질을 만족하면 유니크한 AFAM 클래스를 결정한다고 한다. 신기하다.

 

성질 1. (Local Accuracy)

$$f(x) =g(x')=\phi_0+\sum_{i=1}^M\phi_ix_i'\tag{5}$$

 

성질 1은 EM $g$가 $f(x)$와 ($x'$에서) 같고 단순화된 입력 $x'$들의 선형 결합으로 표현된다는 것이다.

 

성질 2. (Missingness)

$$x_i'=0 \Rightarrow \phi_i=0\tag{6}$$

$i$번째 변수가 결측(Missing)되었다면 해당 변수의 기여도는 0이어야 한다는 성질이다. 어찌 보면 당연하다.

 

성질 3. (Consistency)

$f_x(z')=f(h_x(z'))$, $z'-\{i\}$는 $z'$에서 $i$번째 원소를 0으로 세팅한 것이라고 하자. 어떠한 두 모형 $f, f'$에 대해서

$$f_x'(z')-f_x'(z'-\{i\}) \geq f_x(z')-f_x(z'-\{i\}), \forall \; z'\in \{0,1\}^M\tag{7}$$

을 만족하면 $\phi_i(f', x) \geq \phi_i(f, x)$이다. 

성질 3은 $f'$에서 $i$번째 변수의 영향이 $f$에서 보다 크거나 같다면 $i$번째 기여도가 줄어들지 않는다는 뜻이다. 내 생각엔 (7)이 좀 이상한 것 같다. 양쪽에 절대값을 붙여야 그런 해석이 가능하기 때문이다. 

 

정리 1.

위 성질 3개를 만족하는 EM $g$는 오직 다음에서 정의하는 것뿐이다.

$$\phi_i(f, x) = \sum_{z' \subset x'} \frac{|z'|!(M-|z'|-1)!}{M!}[f_x(z')-f_x(z'-\{i\})] \tag{8}$$

여기서 $z'\subset x'$의 의미는 $x'$의 0이 아닌 엔트리들의 부분집합이라는 뜻이다.


   4. SHAP(SHapley Additive exPlanation) Values

본 섹션에서 변수 중요도를 계산하는 통합된 방법을 소개한다. 그것은 바로 예측 모형의 조건부 기대값의 Shapley Value라는 것이다.

 

즉,  (8)에서 $f_x(z') = E(f(z)|z_S)$로 둔 것이 SHAP인 것이다. 여기서 $S$는 $z'$의 0이 아닌 원소들이다.

 

정확한 SHAP 값의 계산은 구하기 힘들다. 하지만 근사할 수는 있다. 여기서는 모델의 영향을 받지 않는(Model-agnostic) 두 가지 방법을 소개한다. 하나는 SSV이고 다른 하나는 kernel SHAP이다. 또한 모델의 영향을 받는(Model-specific) 방법도 소개한다.

 

SHAP 값 계산의 편의성을 위해 변수간 독립성과 선형성을 이용한다.

4.1 Model-Agnostic Approximation

여기서는 변수간 독립성을 가정한다. 따라서 다음을 만족한다.

$$E(f(z)|z_S) = E_{z_{S^c}|z_S}(f(z)|z_S) = E_{z_S}(f(z))$$

이제 SSV나 QII로 SHAP 값을 추정할 수 있다.

 

Kernel SHAP(Linear LIME + Shapley Value)

Kernel SHAP은 변수간 독립성으로 계산을 쉽게 해 줬지만 더 계산을 쉽게 만들려고 나온 것이다. Linear LIME은 이진 변수들의 선형 EM을 사용한다. Linear LIME은 AFAM이므로 (2)를 만족하는 해가 성질 1~3을 만족한다면 Linear LIME으로 얻은 해가 바로 Shapley Values라는 것이다.

 

잘은 모르겠으나 SHAP 계산을 위해 LIME 프레임워크를 도입하는 거 같다. 즉, SHAP 계산을 벌점항이 포함된 가중 최소 제곱 문제로 푼다는 것이다.

 

정리 2.

(2)의 해가 성질 1~3을 만족하기 위한 $\pi_{x'}, L, \Omega$의 형식은 다음과 같다.

$$\begin{align}  \Omega &= 0 \\ \pi_{x'}(z') &= \frac{(M-1)}{M \text{ choose } |z'|}|z'|(M-|z'|) \\ L(f, g, \pi_{x'}) = \sum_{z' in Z}[f(h_x^{-1}(z')) - g(z')]^2\pi_{x'}(z')  \end{align}$$

 

만약 $|z'|=0$ 또는 $|z'|=M$이면 $\phi_0 = f_x(\emptyset)$, $f(x) = \sum_{i=1}^M\phi_i$가 된다. 

 

정리 2의 문제는 가중 최소 제곱 문제로 풀 수 있다.

 

4.2 Model-Specific Approximation

예측 모형의 형식이 정해진 경우 더 빨리 SHAP 값을 계산할 수 있다.

 

Linear SHAP

예측 모형이 선형인 경우 더 간단하게 SHAP 값을 계산할 수 있다.

 

따름 정리 1(Linear SHAP)

$f(x) = \sum_{j=1}^Mw_jx_j+b$에 대하여

$$\phi_0(f, x) = b, \;\;\text{and}\;\; \phi_i(f, x)=w_j(x_j-E(x_j))$$

 

Low-Order SHAP

정리 2를 사용한 선형 회귀 문제는 계산 복잡도가 $O(2^M+M^3)$이다. 따라서 조건부 기대값을 근사할 때에는 $M$이 작을 때 효율적으로 SHAP을 계산할 수 있다.

 

Max SHAP

다른 인풋 대비 최대값을 증가시킬 확률을 계산할 수 있다는 데 솔직히 뭔 말인지 모르겠다.

 

Deep SHAP(DeepLIFT+Shapley Values)

SHAP 계산할 때 더 효율적으로 할 수 있도록 Deep 네트워크의 합성 구조를 이용하는 거 같다. DeepLIFT를 SHAP 근사값을 계산하도록 바꾼 것 같다. 


   5. Computational and User Study Experiments

여기서는 계산량과 정확도를 본 논문에서 제안한 Kernel SHAP, Deep SHAP 방법과 기존의 LIME, SSV와 비교한다.

5.1 Computational Efficiency

Kernel SHAP이 기존 (8)을 SSV 기반으로 한 계산보다 더 적은 계산을 했다고 한다.

5.2 Consistency with Human Intuition

정리 1은 모든 AFAM 중에서 SHAP을 써야 할 강력한 동기를 부여한다. 아마도 SHAP가 사람의 직관과 가정 비슷한 설명력을 가지는 변수 중요도 계산 방법이라는 것 같다. 이를 입증하기 위해 LIME, DeepLIFT, SHAP의 결과를 사람이 설명하는 것과 비교했다고 한다. 이때 SHAP을 이용한 결과가 사람의 설명과 가장 비슷했다고 한다.

5.3 Explaining Class Differences

여기서 제안한 DeepSHAP이 기존 DeepLIFT를 향상했고 새로운 버전이 Shapley Value와 더 잘 매칭되도록 발전했다고 한다.


   6. Conclusion

정확도와 해석력의 트레이드오프 관계는 예측에 대한 해석을 도와주는 방법론의 발전을 가져왔다.

 

SHAP 프레임워크는 기존 방법론들이 AFAM 구조를 갖는다는 것을 식별했고 이러한 방법론들이 가져야 하는 바람직한 성질을 갖는 유일한 솔루션임을 보였다.


댓글


맨 위로