본문 바로가기

통계/머신러닝50

8. 연관 규칙 분석(Association Rule Analysis) with Python 이번 포스팅에서는 데이터 간의 관계를 탐색하기 위한 방법으로 마케팅 분야에서 많이 활용되고 있는 연관 규칙 분석(마케팅에서는 장바구니 분석이라고도 한다) 대해서 알아보고자 한다. 여기서 다루는 내용은 다음과 같다. 1. 연관 규칙 분석이란 무엇인가? 2. 연관 규칙 분석 방법 3. 고려 사항 4. 예제 with Python 1. 연관 규칙 분석이란 무엇인가? - 정의 - 연관 규칙 분석(Association Rule Analysis : ARA)은 항목(item)들 관계를 If-Then 형식으로 찾아나가는 분석 방법을 말하며 일종의 규칙 기반 학습(Rule-Based Learning) 방법이다. 특히 마케팅에서는 고객들의 상품 구매 데이터를 이용하여 품목 간의 연관성을 알아본다는 의미에서 장바구니 분석(M.. 2021. 5. 23.
[Quantile Regression] 2. Quantile regression : Understanding how and why? "Quantile Regression - Theory and Applications"(Cristina Davino 외 2명) 2장을 공부했다. 저번 포스팅에서는 Quantile Regression(QR)의 기본적인 내용을 소개하고 파이썬 예제를 살펴보았다면 이번 포스팅에서는 먼저 QR 파라미터를 어떻게 추정하는지 알아보고 이를 파이썬을 이용하여 구현해보고자 한다(밑바닥부터 구현하는 건 아니다 ㅎㅎ). 그리고 여러 가지 실험을 통하여 QR을 왜 사용하는지에 대해서 고찰해보고자 한다. 1. QR 파라미터 추정법 2. QR을 어떻게 그리고 왜 사용하는가? 1. QR 파라미터 추정법 1. 추정 방법 먼저 데이터 $(y_i, \tilde{x}_i^t), i=1, \ldots, n$ 가 있다고 하자. 여기서 $\t.. 2021. 5. 5.
[Quantile Regression] 1. A visual introduction to quantile regression 요즘 "Quantile Regression - Theory and Applications"(Cristina Davino 외 2명)를 공부하고 있다. 공부한 내용을 읽고 넘어가기보다 포스팅해두는 것이 좋겠다는 생각이 들었다. 왜냐하면 기억이 오래가기 때문이다 ㅎㅎ. 각 Chapter 별로 포스팅하려고 한다. 내용이 광범위한 것은 포스팅 하나에 1개 Chapter를 소개하려고 하며 필요에 따라선 여러 Chapter를 하나의 포스팅에 정리하려고 한다. 또한 파이썬을 이용하여 예제도 같이 포함시키려고 한다. 이번 포스팅에서는 QR을 소개하는 기본적인 내용을 다루려고 하며 그 내용은 다음과 같다. 1. Quantile Regression에 대하여 2. Quantile Regression 예제 with Python.. 2021. 4. 24.
7. 이상치 탐지(Outlier Detection) - 통계적 검정과 여러가지 판별법 with Python 이번 포스팅에서는 데이터 속에 이상치가 있는지 없는지 테스트해볼 수 있는 통계적 방법과 판별 기준에 대해서 소개한다. 여기서 다루는 내용은 다음과 같다. 1. Grubbs's Test 2. Chauvenet's Criterion 3. Peirce's Criterion 4. Dixon's Q-Test 5. Generalized Extreme Studentized Deviation Test 1. Grubbs's Test - 정의 - Grubbs's Test는 정규분포를 따르는 데이터에서 하나의 이상치를 발견할 수 있는 검정 방법이다. Grubbs's Test는 관측된 데이터가 정규분포로 추출되거나 데이터의 분포가 근사적으로 정규분포를 따른다고 가정한다. 따라서 이 검정법을 수행하기 위해서는 사전에 데이터의 .. 2021. 2. 17.
6. Least Absolute Deviation Regression에 대해서 알아보자 with Python 이번 포스팅에서는 최소 제곱법에 묻혀서 잘 알려지지 않지만 꽤나 유용한 Least Absolute Regression에 대해서 알아보고자 한다. 여기서 다루는 내용은 다음과 같다. 1. Least Absolute Regression이란? 2. 모형 적합 알고리즘 3. 통계적 검정 4. 모의 실험 5. 실제 데이터 적용 1. Least Absolute Deviation Regression이란? - 정의 - 먼저 데이터 $(\tilde{x}_i, y_i), \; i=1, \ldots, n$ 가 있다고 하자. 여기서 $\tilde{x}_i = (1, x_{i1}, \ldots, x_{ip})^t$ 이다. 이때 Least Absolute Deivation Regression(LADR)은 아래의 손실 함수 $L$.. 2021. 1. 26.
[머신 러닝] 5. EM(Expectation-Maximization) Algorithm(알고리즘)에 대해서 알아보자. 오늘은 최대 우도 추정량을 구하는 방법 중에 하나인 EM Algorithm(알고리즘)에 대해서 알아보려고 한다. 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 PC 웹 브라우저 또는 모바일 웹 브라우저에서 보시기 바랍니다. EM 알고리즘이란? EM 알고리즘이란 무엇인가 EM(Expectation-Maximization) 알고리즘은 Latent 변수를 도입하여 최대 우도 추정량을 구하는 방법이다. 여기서 Latent 변수는 실제로 관측이 되지 않았지만 관측된 데이터에 상호 영향을 미치리라 판단되는 변수를 말한다. 예를 들면 Gaussian Mixture 모형에서 그룹을 나타내는 변수가 Latent 변수에 해당한다. 왜냐하면 그룹 변수는 실제로 관측되지.. 2021. 1. 19.
[머신 러닝] 4. 나이브 베이즈 분류기(Naive Bayes Classifier) with Python 이번 포스팅에서는 나이브 베이즈 분류기(Naive Bayes Classifier : NBC)에 대해서 알아보려고 한다. 먼저 나이브 베이즈 분류기를 알아보기 전에 베이즈 분류기에 대해서 알면 좋다. 왜냐하면 베이즈 분류기랑 나이브 베이즈 분류기랑 헷갈릴 수 있기 때문이다. 베이즈 분류기에 대해서는 이전 포스팅에서 다루었으니 한번 보고 오면 좋다. 여기서 다루는 내용은 다음과 같다. 1. 나이브 베이즈 분류기 2. 실제 데이터 적용 3. 나이브 베이즈 분류기 장단점 1. 나이브 베이즈 분류기 - 정의 - 이전 포스팅에서 베이즈 분류기는 0-1 손실 함수의 기대값을 최소화시키는 분류기라고 하였다. 또한 독립변수 $X$, 출력 변수 $y(\in \{1, 2, \ldots, J\})$에 대하여 베이즈 분류기를 .. 2020. 12. 26.
[머신 러닝] 3. 베이즈 분류기(Bayes Classifier) 이번 포스팅에서는 베이즈 분류기(Bayes Classifier)에 대해서 알아보고자 한다. 여기서 다루는 내용은 다음과 같다. 1. 베이즈 분류기(Bayes Classifier) 정의 2. 베이즈 분류기 추정 방법 1. 베이즈 분류기(Bayes Classifier) 정의 먼저 설명의 편의를 위하여 이진 분류 문제를 생각하기로 하자. 출력 변수 $y$가 가질 수 있는 라벨을 $G=\{1, -1\}$라하자. 분류 문제는 주어진 독립변수(또는 설명변수) $X$에 대하여 $y$를 예측하는 문제이다. 먼저 다음과 같이 분류기 공간 $C^*$를 정의한다. $$C^* = \{f : S \rightarrow G\}$$ 여기서 $S$는 독립변수가 가질 수 있는 값들의 집합이다. 분류기 공간은 주어진 독립변수$X(\in .. 2020. 12. 21.
[머신 러닝] 2. K-최근접 이웃 분류기(K-Nearest Neighbor Classifier)에 대하여 알아보자 with Python 이번 포스팅에서는 k-근접 이웃 분류기에 대해서 알아보고자 한다. k-근접 이웃 분류기는 실제로 잘 활용되지는 않지만 데이터를 이용하여 분류하는 기본적인 과정을 이해하는데 유용하며 때에 따라서 다른 예측 분류기의 비교를 위한 기초 모형이 될 수 있다. 이번 포스팅에서 다루는 내용은 다음과 같다. 1. k-근접 이웃 분류기란 무엇인가 2. k-근접 이웃 분류기 모의 실험 with Python 3. 실제 데이터 적용해보기 with Python 4. k-근접 이웃 분류기 장단점 1. k-근접 이웃 분류기란 무엇인가 - 정의 - k-근접 이웃 분류기(k-Nearest Neighbor : kNN)는 특정 입력 데이터가 주어졌을 때 입력 데이터와 가까운 k개의 데이터를 이용하여 예측하는 모형이다. 우리에게 데이터 .. 2020. 12. 15.
[머신 러닝] 1. 소개 이번 포스팅에서는 머신러닝이 무엇인지 생각하고 적어보았다. -- 목차 -- 1. 머신러닝이란? 2. 머신러닝의 종류 3. 통계학 vs 머신러닝 1. 머신러닝이란? 머신러닝은 데이터로부터 패턴을 인식하고 이를 바탕으로 스스로 의사 결정할 수 있는 알고리즘을 개발하는 학문 분야이다. 2. 머신러닝의 종류 2-1. 지도 학습(Supervised Learning) - 지도 학습 - 성별과 몸무게를 이용하여 그 사람의 키를 예측하는 것, 해당 메일의 텍스트를 파악하여 스팸인지 아닌지 예측하는 것과 같이 주어진 데이터를 이용하여 예측하고 싶은 변수가 있다고 하자. 여기서 예측하고 싶은 변수를 $y$라하고 $y$에 영향을 주리라고 생각하는 데이터를 $X$라 하자. 쉽게 말하면, $X$와 $y$는 각각 입력값과 그에 .. 2020. 11. 27.

맨 위로