본문 바로가기

통계95

6. Least Absolute Deviation Regression에 대해서 알아보자 with Python 이번 포스팅에서는 최소 제곱법에 묻혀서 잘 알려지지 않지만 꽤나 유용한 Least Absolute Regression에 대해서 알아보고자 한다. 여기서 다루는 내용은 다음과 같다. 1. Least Absolute Regression이란? 2. 모형 적합 알고리즘 3. 통계적 검정 4. 모의 실험 5. 실제 데이터 적용 1. Least Absolute Deviation Regression이란? - 정의 - 먼저 데이터 $(\tilde{x}_i, y_i), \; i=1, \ldots, n$ 가 있다고 하자. 여기서 $\tilde{x}_i = (1, x_{i1}, \ldots, x_{ip})^t$ 이다. 이때 Least Absolute Deivation Regression(LADR)은 아래의 손실 함수 $L$.. 2021. 1. 26.
[머신 러닝] 5. EM(Expectation-Maximization) Algorithm(알고리즘)에 대해서 알아보자. 오늘은 최대 우도 추정량을 구하는 방법 중에 하나인 EM Algorithm(알고리즘)에 대해서 알아보려고 한다. 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 PC 웹 브라우저 또는 모바일 웹 브라우저에서 보시기 바랍니다. EM 알고리즘이란? EM 알고리즘이란 무엇인가 EM(Expectation-Maximization) 알고리즘은 Latent 변수를 도입하여 최대 우도 추정량을 구하는 방법이다. 여기서 Latent 변수는 실제로 관측이 되지 않았지만 관측된 데이터에 상호 영향을 미치리라 판단되는 변수를 말한다. 예를 들면 Gaussian Mixture 모형에서 그룹을 나타내는 변수가 Latent 변수에 해당한다. 왜냐하면 그룹 변수는 실제로 관측되지.. 2021. 1. 19.
[일반화 선형 모형(Generalized Linear Model)] 6. Count 데이터 - Poisson Log Linear Model 적합하기 with Python 반응 변수 중에는 특정 기간 동안에 발생한 특정 사건 횟수 정보가 담긴 경우가 종종 있다. 예를 들어 1주일에 음주 횟수, 담배 흡연 횟수 등이 있다. 이처럼 횟수 정보를 가지는 반응 변수는 포아송(Poisson) 분포를 따른다고 볼 수 있다. 일반화 선형 모형은 반응 변수가 포아송 분포를 따르는 경우에 적합한 모형을 제공한다. 이번 포스팅에서는 포아송 분포를 따르는 반응 변수에 대하여 모형을 적합하는 방법을 소개한다. 여기서 다루는 내용은 다음과 같다. 1. 모형 적합 알고리즘 유도 2. 실제 데이터 적용 1. 모형 적합 알고리즘 유도 먼저 모형 적합 알고리즘에 일반적인 내용을 다룬 포스팅이 있으니 반드시 읽어보기 바란다. 우도방정식과 모형 적합 우리에게 데이터 $(\tilde{x}_i, y_i), \.. 2021. 1. 16.
[논문 리뷰] 2. Regression Shrinkage and Selction via the LASSO 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 PC 웹 브라우저 또는 모바일 웹 브라우저에서 보시기 바랍니다. 이번 포스팅에서는 LASSO의 명칭이 탄생하게 된 논문 'Regression Shrinkage and Selction via the LASSO'을 리뷰하고 파이썬으로 구현해보고자 한다. 여기서 다루는 내용은 다음과 같다. Summary 1. Introduction 2. The LASSO 3. Example -Prostate Cancer Data 4. Prediction Error and Estimation of $t$ 5. LASSO as Bayes Estimate 6. Algorithms for Finding LASSO Solutions .. 2021. 1. 9.
[일반화 선형 모형(Generalized Linear Model)] 5. Ungrouped Binary 데이터에 모형 적합하기 with Python 이번 포스팅에서는 이전 포스팅에서 다룬 Grouped Binary 데이터의 특수한 케이스인 Ungrouped Binary 데이터에 대하여 GLM을 적합시키는 방법에 대해 알아보려고 한다. 먼저 우도 방정식과 모형 적합에 관한 내용을 여기에 다루었으니 반드시 읽어보자. 여기서 다루는 내용은 다음과 같다. 1. Ungrouped Binary 데이터란? 2. 모형 적합 알고리즘 유도 3. 실제 데이터 적용 1. Ungrouped Binary 데이터란? Ungrouped Binary 데이터란 데이터 하나에 대하여 2개의 범주를 갖는 반응 변수가 하나 있는 것이다. 말을 어렵게 했는데 지도학습(Supervised Learning)에서 2진(Binary) 분류 모형을 만들기 위해 사용하는 학습 데이터라고 생각하면 .. 2021. 1. 1.
[일반화 선형 모형(Generalized Linear Model)] 4. Grouped Binary 데이터에 모형 적합하기 with Python 이번 포스팅에서는 Grouped Binary(GB) 데이터가 주어졌을 때 GLM 모형을 적합하는 방법에 대하여 알아보려고 한다. GLM 모형 적합에 대한 내용은 여기를 참고하기 바란다. 여기서 다루는 내용은 다음과 같다. 1. Grouped Binary 데이터란? 2. 모형 적합 알고리즘 유도 3. 실제 데이터 적용 1. Grouped Binary 데이터란? Grouped Binary 데이터가 생소할 수도 있으니 이것이 무엇인지 확인해보자. Binary라는 것은 관심의 대상이 되는 변수가 2개의 클래스를 갖는 범주형 데이터를 의미한다. Grouped Binary 데이터는 각 그룹별로 Binary 데이터의 개수와 관심 범주의 비율로 이루어진 데이터를 의미한다. 물론 각 그룹별 설명변수도 있을 수 있다. 예.. 2021. 1. 1.
[논문 리뷰] 1. Robust Locally Weighted Regression and Smoothing Scatterplots 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 웹 브라우저 또는 모바일 웹에서 보시기 바랍니다. 이번 포스팅에서는 William S. Cleveland의 1979 논문인 'Robust Locally Weighted Regression and Smoothing Scatterplots'을 리뷰하고 파이썬을 이용하여 구현해보려고 한다. 이번 포스팅의 구성은 다음과 같다. Abstract 1. Introduction 2. LWR and Robust LWR 3. Example 4. Choosing Parameter 5. Computation 6. Estimation and Sampling Distributions for LWR 7. Variance, Bias.. 2020. 12. 29.
[머신 러닝] 4. 나이브 베이즈 분류기(Naive Bayes Classifier) with Python 이번 포스팅에서는 나이브 베이즈 분류기(Naive Bayes Classifier : NBC)에 대해서 알아보려고 한다. 먼저 나이브 베이즈 분류기를 알아보기 전에 베이즈 분류기에 대해서 알면 좋다. 왜냐하면 베이즈 분류기랑 나이브 베이즈 분류기랑 헷갈릴 수 있기 때문이다. 베이즈 분류기에 대해서는 이전 포스팅에서 다루었으니 한번 보고 오면 좋다. 여기서 다루는 내용은 다음과 같다. 1. 나이브 베이즈 분류기 2. 실제 데이터 적용 3. 나이브 베이즈 분류기 장단점 1. 나이브 베이즈 분류기 - 정의 - 이전 포스팅에서 베이즈 분류기는 0-1 손실 함수의 기대값을 최소화시키는 분류기라고 하였다. 또한 독립변수 $X$, 출력 변수 $y(\in \{1, 2, \ldots, J\})$에 대하여 베이즈 분류기를 .. 2020. 12. 26.
[머신 러닝] 3. 베이즈 분류기(Bayes Classifier) 이번 포스팅에서는 베이즈 분류기(Bayes Classifier)에 대해서 알아보고자 한다. 여기서 다루는 내용은 다음과 같다. 1. 베이즈 분류기(Bayes Classifier) 정의 2. 베이즈 분류기 추정 방법 1. 베이즈 분류기(Bayes Classifier) 정의 먼저 설명의 편의를 위하여 이진 분류 문제를 생각하기로 하자. 출력 변수 $y$가 가질 수 있는 라벨을 $G=\{1, -1\}$라하자. 분류 문제는 주어진 독립변수(또는 설명변수) $X$에 대하여 $y$를 예측하는 문제이다. 먼저 다음과 같이 분류기 공간 $C^*$를 정의한다. $$C^* = \{f : S \rightarrow G\}$$ 여기서 $S$는 독립변수가 가질 수 있는 값들의 집합이다. 분류기 공간은 주어진 독립변수$X(\in .. 2020. 12. 21.
[머신 러닝] 2. K-최근접 이웃 분류기(K-Nearest Neighbor Classifier)에 대하여 알아보자 with Python 이번 포스팅에서는 k-근접 이웃 분류기에 대해서 알아보고자 한다. k-근접 이웃 분류기는 실제로 잘 활용되지는 않지만 데이터를 이용하여 분류하는 기본적인 과정을 이해하는데 유용하며 때에 따라서 다른 예측 분류기의 비교를 위한 기초 모형이 될 수 있다. 이번 포스팅에서 다루는 내용은 다음과 같다. 1. k-근접 이웃 분류기란 무엇인가 2. k-근접 이웃 분류기 모의 실험 with Python 3. 실제 데이터 적용해보기 with Python 4. k-근접 이웃 분류기 장단점 1. k-근접 이웃 분류기란 무엇인가 - 정의 - k-근접 이웃 분류기(k-Nearest Neighbor : kNN)는 특정 입력 데이터가 주어졌을 때 입력 데이터와 가까운 k개의 데이터를 이용하여 예측하는 모형이다. 우리에게 데이터 .. 2020. 12. 15.

맨 위로