본문 바로가기

통계/머신러닝50

37. 주성분 분석(Principal Component Analysis : PCA)에 대해서 알아보자 with Python 이번 포스팅에서는 주성분 분석(Principal Component Analysis : PCA)에 대한 개념과 파이썬(Python)을 이용하여 구현하는 방법에 대해서 알아본다. - 목차 - 1. 주성분 분석이란? 2. 주성분 구하기 3. 파이썬 구현 4. 예제 5. 장단점 주성분 분석을 이해하기 위해선 고유값 분해와 특이값 분해에 대한 내용을 알아야 한다. 아래 포스팅에 해당 내용을 정리했으니 참고하면 된다. 고유값과 고유 벡터 그리고 고유값 분해(Eigen Decomposition)에 대해서 알아보자 (feat. Numpy) 고유값과 고유 벡터 그리고 고유값 분해(Eigen Decomposition)에 대해서 알아보자 (feat. Numpy) 이번 포스팅에서는 고유값과 고유 벡터에 대해서 간단히 알아본 .. 2023. 4. 1.
36. Reduced Rank Regression(RRR)에 대해서 알아보자 with Python 이번 포스팅에서는 Reduced Rank Regression에 대한 개념과 파이썬 구현 방법을 알아보고자 한다. 여기서는 기본적인 선형 대수 지식과 특이값 분해(Singular Vector Decomposition : SVD)에 대한 지식이 있다고 가정한다. 1. Reduced Rank Regression(RRR)이란? 2. 파이썬 구현 3. 예제 4. 장단점 특이값 분해(Singular Vector Decomposition : SVD)에 대해 잘 모르시는 분들은 아래에 포스팅해두었으니 참고하면 도움이 된다. 특이값 분해(Singular Value Decomposition : SVD)에 대해서 알아보자(feat. Numpy) 1. Reduced Rank Regression(RRR)이란? 1) 정의 Red.. 2023. 3. 16.
35. Spline Regression에 대해서 알아보자 with Python 이번 포스팅에서는 Spline Regression에 대한 개념과 Smoothing Spline 그리고 Penalized B-Spline에 대한 내용을 소개한다. 이때 Smoothing Spline을 설명하기 위해 Truncated Power Basis, Cubic Spline을 먼저 소개한 후 Smoothing Spline에 대한 내용을 다룬다. Smoothing Spline의 특수한 경우로 Natural Spline 또한 소개한다. B-Spline에 대한 개념을 소개한 뒤 Penalized B-Spline을 알아본다. 파이썬으로 구현하는 방법도 소개한다. - 목차 - 1. Spline Regression이란 무엇인가? 2. Smoothing Spline 3. Penalized B-Spline 4. 장단.. 2023. 2. 19.
34. ROC(Receiver Operating Characteristic) 곡선과 AUC(Area Under the Cuve)에 대해서 알아보자 with Python 이번 포스팅에서는 머신러닝 예측 모형 간 성능을 시각적으로 비교해 볼 수 있는 방법으로 ROC(Receiver Operating Characteristic) 곡선과 AUC(Area Under the Cuve)에 대한 개념을 알아보고 이를 파이썬(Python)으로 구현해보고자 한다. 이 포스팅은 민감도(Sensitivity, 또는 재현율 Recall)와 특이도(Specificity)에 대해서 안다고 가정한다. 민감도와 특이도에 대해서 궁금하신 분들은 여기에서 민감도와 특이도 파트를 참고하기 바란다. - 목차 - 1. ROC(Receiver Operating Characteristic) 곡선 2. AUC(Area Under the Cuve) 1. ROC(Receiver Operating Characteris.. 2023. 2. 2.
33. 클러스터링(군집화) 평가 지표 Calinski-Harabasz index, Davies-Bouldin index, Rand Index에 대해서 알아보자 with Python 지난 포스팅에서는 클러스터링(군집화) 평가 지표로써 Dunn Index, Silhouette Index에 대해서 알아보았다. 이번엔 그 외 평가 지표인 Calinski-Harabasz index, Davies-Bouldin index, Rand Index에 대해서 알아보고 파이썬으로 구현하는 방법도 소개하고자 한다. Dunn Index와 Silhouette Index에 대한 내용은 아래 포스팅을 참고하기 바란다. 12. 클러스터링(군집화) 평가 지표 Dunn Index with Python 14. 클러스터링(군집화) 평가지표 Silhouette(실루엣) 지수(계수)에 대해서 알아보자 with Python - 목차 - Calinski-Harabasz index Davies-Bouldin index Cali.. 2023. 1. 22.
32. Gain Chart와 Lift Chart에 대해서 알아보자 with Python 이번 포스팅에서는 분류 모형의 성능을 시각적으로 알아보는 방법인 Gain Chart와 Lift Chart에 대해서 알아본다. 또한 파이썬(Python)을 이용하여 구현하는 방법도 알아보려고 한다. Gain Chart와 Lift Chart Gain Chart와 Lift Chart를 알아보기 전에 몇 가지 세팅을 하고 넘어가자. 먼저 데이터 $(x_i, y_i), i=1, \ldots, n$가 있다고 하자. 이때 $x_i \in \mathbb{R}^p$인 $p$ 차원 설명 변수 벡터이고 $y_i \in \{ 0, 1 \}$인 범주형 반응 변수이다. 또한 학습된 분류 모형 $f$는 $f : \mathbb{R}^p \rightarrow [0, 1]$인 함수이다. 이 함수는 주어진 $x\in \mathbb{R}^.. 2023. 1. 17.
31. 지도 학습 모형 성능 지표에 대해서 알아보자 with Python 이번 포스팅에서는 지도 학습 알고리즘을 통해 만들어진 예측 모형의 성능을 평가하는 지표에 대해서 알아보려고 한다. 성능 지표는 크게 분류 모형과 회귀 모형에 대한 지표로 나눌 수 있다. 여기에서는 분류 모형에 대한 성능 지표로 정분류율(Accuracy), 정밀도(Precision), 민감도(Sensitivity 또는 재현율 Recall)와 특이도(Specificity) 그리고 F1-Score를 알아볼 것이다. 그리고 회귀 모형에 대한 지표는 결정계수(Coefficient of Determination 또는 R Square), 평균 제곱 오차(Mean Square Error : MSE) 그리고 평균 절대 오차(Mean Absolute Error : MAE)에 대해서 알아본다. 그리고 각 성능 지표를 파이썬.. 2023. 1. 13.
30. DBSCAN에 대해서 알아보자 with Python 이번 포스팅에서는 클러스터링 알고리즘 중 하나인 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)에 대해서 알아보고자 한다. - 목차 - 1. DBSCAN이란 무엇인가? 2. DBSCAN 알고리즘 3. DBSCAN 장단점 4. 파이썬(Python) 구현 5. 예제 1. DBSCAN이란 무엇인가? 1) 정의 DBSCAN은 Density-Based Spatial Clustering of Applications with Noise의 준말로 그 정의는 다음과 같다. DBSCAN은 서로 인접한 데이터들은 같은 클러스터일 것이라는 아이디어에 착안하여 만들어졌으며 특정 데이터를 중심으로 밀도가 높은 곳에 포함된 데이터에는 클러스터를 할당하고 밀도.. 2022. 11. 3.
29. Piecewise Polynomial(Constant, Linear) Regression에 대해서 알아보자 with Python 이번 포스팅에서는 Piecewise Polynomial(Constant, Linear) Regression에 대한 개념과 이를 파이썬으로 구현하는 방법에 대해서 알아보려고 한다. - 목차 - 1. Piecewise Polynomial Regression 이란 무엇인가? 2. Piecewise Polynomial Regression 알고리즘 3. 장단점 4. 파이썬 구현 1. Piecewise Polynomial Regression 이란 무엇인가? 1) 정의 Piecewise Polynomial Regression(PPR)은 주어진 매듭점으로 나누어진 영역에서 설명 변수의 다항 함수로 회귀 함수를 추정하는 방법을 말한다. 2) 파헤치기 앞에서 살펴본 정의를 하나하나 살펴보자. 이때 설명과 구현의 편의를 위.. 2022. 10. 20.
28. K-Modes Clustering(클러스터링, 군집화)에 대해서 알아보자 with Python 오늘은 기존 연속형 변수에서만 작동하는 K-Means 클러스터링이나 Gaussian Mixture Model 클러스터링과는 달리 범주형 변수에 대한 군집화 기법인 K-Modes Clustering(클러스터링, 군집화)에 대해서 알아보려고 한다. 또한 파이썬(Python) 구현 방법을 알아보고 클러스터링(군집화) 알고리즘을 실제 데이터에 적용해보자. 이번 포스팅에서 다루는 내용은 다음과 같다. - 목차 - 1. K-Modes Clustering(클러스터링, 군집화) 정의 2. K-Modes Clustering(클러스터링, 군집화) 알고리즘 3. K-Modes Clustering(클러스터링, 군집화) 장단점 4. 파이썬(Python) 구현 K-Means 클러스터링에 대한 내용이 궁금한 분들은 아래 포스팅을 .. 2022. 9. 4.

맨 위로