본문 바로가기

통계/논문 리뷰19

Feature Selection using Stochastic Gates 비선형 모형에서의 변수 선택 방법론을 제시한 Feature Selection using Stochastic Gates 논문을 읽고 정리해본다. - 목차 - 1. Introduction 2. Problem Setup and Background 3. Proposed Method 4. Connection to Mutual Information 5. Related Work 6. Experiments 7. Cox Proportional Hazard Models for Survival Analysis 8. Evaluating Stochastic Regularization Schemes 9. Feature Selection with Correlations 10. Conclusion 1. Introduction 머신 .. 2022. 9. 14.
Multivariate Adaptive Regression Splines 이번 포스팅에서는 Friedman의 명작 Multivariate Adaptive Regression Splines(MARS)를 읽고 정리해본다. - 목차 - 1. Introduction 2. Existing Methodology 3. Adaptive Regression Splines 4. Simulation Studies and Examples 5. Remarks 6. Conclusion 1. Introduction 관측 데이터 $(x_i, y_i), i=1, \ldots, n$가 있다고 해보자. 이때 $x_i=(x_{i1}, \ldots, x_{ip})$이다. 이때 반응 변수와 설명 변수 간에 다음과 같은 관계가 있다고 가정해보자. $$y = f(x_1, \ldots, x_p)+\epsilon\tag{.. 2022. 9. 13.
“Why Should I Trust You?” Explaining the Predictions of Any Classifier 오늘은 LIME을 제안한 논문 “Why Should I Trust You?” Explaining the Predictions of Any Classifier를 읽고 정리해본다. - 목차 - 1. Introduction 2. The Case for Explanations 3. Local Interpretable Model-Agnostic Explanations 4. Submodular Pick for Explaining Models 5. Simulated User Experiments 6. Evaluation with Human Subjects 7. Related Work 8. Conclusion and Future Work 1. Introduction 어떤 사람이 예측 결과나 그 모형을 신뢰할 수 없는 .. 2022. 8. 17.
A Unified Approach to Interpreting Model Predictions 오늘은 SHAP의 논문 "A Unified Approach to Interpreting Model Predictions"을 읽고 정리한 것을 적어본다. - 목차 - 1. Introduction 2. Additive Feature Attribution Methods 3. Simple Properties Uniquely Determine Additive Feature Attribution 4. SHAP(SHapley Additive exPlanation) Values 5. Computational and User Study Experiments 6. Conclusion 1. Introduction 요즘은 복잡한 예측 모형의 해석을 위한 방법들이 제공되고 있다. 하지만 어느 방법이 다른 방법보다 좋은지에 대한.. 2022. 8. 15.
Producer Incentives in Cost Allocation 이번 포스팅에서는 Young의 1985년 논문 'Producer Incentives in Cost Allocation'을 읽고 정리해보았다. - 목차 - 1. Introduction 2. Cost Allocation, Marginal Cost Pricing and Ramsey Pricing 3. Monotonicity and Aumann-Shapley Prices 4. Other Characterizations of Aumann-Shapley Prices 5. Conclusion 1. Introduction 생산품마다 생산하는 가치가 다른 상황에서 총생산품의 원가를 각 생산품 별로 어떻게 배분하는 것이 좋을까? 이러한 배당 문제는 공공기관에게 직면한 문제로 잘알려져있다. 이론적으로 한계 비용 책정(Mar.. 2022. 8. 11.
Monotonic Solutions of Cooperative Games 이번 포스팅에서는 Shapley Value에 대한 Young의 논문 "Monotonic Solutions of Cooperative Games"을 읽고 정리해보았다. 요약 1. Introduction "단조성(Monotonicity)"는 문제의 데이터가 변하면 그 답도 비슷한 방식으로 변한다는 것으로 공정 배분의 일반적인 원리를 나타낸다. 여기서는 협력 게임(Cooperative Game)을 위한 단조성 원리를 알아보고자 한다. 2. Monotonicity 2.1 Cooperative Games $n$명의 플레이어($\{1, 2, \ldots, n \}=N$)로 이루어진 협력 게임(Cooperative Game - CG) $v$는 $N$의 모든 부분 집합$S$에 대하여 실수값으로 정의된 $v(\phi) .. 2022. 8. 11.
Bagging Predictors 이번 포스팅에서는 Leo Breiman의 논문 'Bagging Predictors'에 대한 내용을 간략히 정리해본다. - 목차 - 1. Introduction 2. Bagging Classification Trees 3. Bagging Regression Trees 4. Why Bagging Works 5. A Linear Regression Illustration 6. Concluding Remarks 1. Introduction 학습 데이터 $L=\{ (y_n, x_n), n=1, \ldots, N \}$이 있다. $y_n$은 클래스 라벨이거나 수치형 반응 변수일 수 있다. 이때 학습 데이터 $L$을 이용하여 예측모형 $\phi(x, L)$을 만들어본다고 가정하자. 또한 학습 데이터의 시퀀스 $\{ .. 2022. 7. 16.
XGBoost : A Scalable Tree Boosting System 이번 포스팅에서는 Boosting 계의 정점이라고 할 수 있는 XGBoost를 소개한 논문인 "A Scalable Tree Boosting System"을 읽고 정리해보려고 한다. - 목차 - 1. Introduction 2. Tree Boosting In A Nutshell 3. Split Finding Algorithms 4. System Design 5. Related Works 6. End to End Evaluation 7. Conclusion 1. Introduction 머신 러닝은 많은 분야에서 중요한 도구로써 활약하고 있다. 그 이유는 2가지가 있다. 첫 번째는 복잡한 패턴을 학습하는 효율적인 모형의 사용, 두 번째는 대용량 데이터에 대해서도 학습이 가능하도록 하는 확장성이다. 머신러닝 방.. 2022. 6. 24.
Greedy Function Approximation : A Gradient Boosting Machine 이번엔 Gradient Boosting(GB)의 시초인 Friedman의 2001년 논문 Greedy Function Approximation : A Gradient Boosting Machine을 읽고 정리해보았다. - 목차 - 1. Function Estimation 2. Numerical Optimization in Function Space 3. Finite Data 4. Applications : Additive Modeling 5. Regularization 6. Simulation Studies 7. Tree Boosting 8. Interpretation 9. Real Data 10. Data Mining 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지.. 2022. 6. 15.
Random Forests 이번 포스팅에서는 랜덤 포레스트를 제안한 Breiman의 Random Forests 논문을 읽고 정리한다. 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 PC 웹 브라우저 또는 모바일 웹 브라우저에서 보시기 바랍니다. Abstract 랜덤 포레스트의 일반화 오류는 트리의 개수가 커질수록 수렴한다. 그리고 분류 나무로 이루어진 포레스트의 일반화 오류는 개별 나무의 정확도와 나무 사이의 상관성에 따라 달라진다. 분리할 변수들을 랜덤으로 선택하는 경우 오류율이 AdaBoost와 맞먹을 정도가 되며 노이즈의 더 강건하다. Random Forests 1.1 Introduction 앙상블 나무를 성장시키고 나무들의 분류 결과 중 다수로 뽑힌 클래스를 해당 클래.. 2022. 5. 27.

맨 위로