본문 바로가기

통계95

37. 주성분 분석(Principal Component Analysis : PCA)에 대해서 알아보자 with Python 이번 포스팅에서는 주성분 분석(Principal Component Analysis : PCA)에 대한 개념과 파이썬(Python)을 이용하여 구현하는 방법에 대해서 알아본다. - 목차 - 1. 주성분 분석이란? 2. 주성분 구하기 3. 파이썬 구현 4. 예제 5. 장단점 주성분 분석을 이해하기 위해선 고유값 분해와 특이값 분해에 대한 내용을 알아야 한다. 아래 포스팅에 해당 내용을 정리했으니 참고하면 된다. 고유값과 고유 벡터 그리고 고유값 분해(Eigen Decomposition)에 대해서 알아보자 (feat. Numpy) 고유값과 고유 벡터 그리고 고유값 분해(Eigen Decomposition)에 대해서 알아보자 (feat. Numpy) 이번 포스팅에서는 고유값과 고유 벡터에 대해서 간단히 알아본 .. 2023. 4. 1.
36. Reduced Rank Regression(RRR)에 대해서 알아보자 with Python 이번 포스팅에서는 Reduced Rank Regression에 대한 개념과 파이썬 구현 방법을 알아보고자 한다. 여기서는 기본적인 선형 대수 지식과 특이값 분해(Singular Vector Decomposition : SVD)에 대한 지식이 있다고 가정한다. 1. Reduced Rank Regression(RRR)이란? 2. 파이썬 구현 3. 예제 4. 장단점 특이값 분해(Singular Vector Decomposition : SVD)에 대해 잘 모르시는 분들은 아래에 포스팅해두었으니 참고하면 도움이 된다. 특이값 분해(Singular Value Decomposition : SVD)에 대해서 알아보자(feat. Numpy) 1. Reduced Rank Regression(RRR)이란? 1) 정의 Red.. 2023. 3. 16.
특이값 분해(Singular Value Decomposition : SVD)에 대해서 알아보자(feat. Numpy) 이번 포스팅에서는 고유값 분해(Eigen Decomposition)의 일반화 버전인 특이값 분해(Singular Value Decomposition : SVD)에 대한 내용을 정리해 보았다. SVD의 개념과 Numpy 모듈을 이용하여 SVD 표현식을 구하는 방법을 소개한다. 만약 고유값 분해에 대해서 모르는 분이 있다면 아래 포스팅을 보고오기 바란다. 그래야 이번 포스팅도 이해하기 쉽다. 고유값과 고유 벡터 그리고 고유값 분해(Eigen Decomposition)에 대해서 알아보자 (feat. Numpy) Singular Value Decomposition(SVD) a. 정의 b. 기하학적 의미와 필요성 c. 예제 d. 파이썬 예제 a. 정의 $\text{rank}(A)=r$인 $m\times n$ 행렬.. 2023. 3. 7.
고유값과 고유 벡터 그리고 고유값 분해(Eigen Decomposition)에 대해서 알아보자 (feat. Numpy) 이번 포스팅에서는 고유값과 고유 벡터에 대해서 간단히 알아본 뒤 고유값 분해(Eigen Decomposition)에 대해서 알아보고자 한다. 고유값 분해(Eigen Decomposition) 고유값 분해를 이야기하기 전에 간단하게 고유값(Eigenvalue)과 고유벡터(Eigenvector)의 정의를 알아보자. 본 포스팅에서 나오는 행렬은 모두 실수 값을 원소로 한다. 1. 고유값(Eigenvalue)과 고유벡터(Eigenvector) a. 정의 $n\times n$ 정방행렬 $A$가 주어졌을 때 다음을 만족하는 0이 아닌 $n$차원 벡터 $v$가 있다고 하자. $$Av = \lambda v, \;\; \lambda \in \mathbb{C}\tag{1}$$ 이때 $\lambda$를 고유값(Eigenva.. 2023. 3. 4.
35. Spline Regression에 대해서 알아보자 with Python 이번 포스팅에서는 Spline Regression에 대한 개념과 Smoothing Spline 그리고 Penalized B-Spline에 대한 내용을 소개한다. 이때 Smoothing Spline을 설명하기 위해 Truncated Power Basis, Cubic Spline을 먼저 소개한 후 Smoothing Spline에 대한 내용을 다룬다. Smoothing Spline의 특수한 경우로 Natural Spline 또한 소개한다. B-Spline에 대한 개념을 소개한 뒤 Penalized B-Spline을 알아본다. 파이썬으로 구현하는 방법도 소개한다. - 목차 - 1. Spline Regression이란 무엇인가? 2. Smoothing Spline 3. Penalized B-Spline 4. 장단.. 2023. 2. 19.
34. ROC(Receiver Operating Characteristic) 곡선과 AUC(Area Under the Cuve)에 대해서 알아보자 with Python 이번 포스팅에서는 머신러닝 예측 모형 간 성능을 시각적으로 비교해 볼 수 있는 방법으로 ROC(Receiver Operating Characteristic) 곡선과 AUC(Area Under the Cuve)에 대한 개념을 알아보고 이를 파이썬(Python)으로 구현해보고자 한다. 이 포스팅은 민감도(Sensitivity, 또는 재현율 Recall)와 특이도(Specificity)에 대해서 안다고 가정한다. 민감도와 특이도에 대해서 궁금하신 분들은 여기에서 민감도와 특이도 파트를 참고하기 바란다. - 목차 - 1. ROC(Receiver Operating Characteristic) 곡선 2. AUC(Area Under the Cuve) 1. ROC(Receiver Operating Characteris.. 2023. 2. 2.
33. 클러스터링(군집화) 평가 지표 Calinski-Harabasz index, Davies-Bouldin index, Rand Index에 대해서 알아보자 with Python 지난 포스팅에서는 클러스터링(군집화) 평가 지표로써 Dunn Index, Silhouette Index에 대해서 알아보았다. 이번엔 그 외 평가 지표인 Calinski-Harabasz index, Davies-Bouldin index, Rand Index에 대해서 알아보고 파이썬으로 구현하는 방법도 소개하고자 한다. Dunn Index와 Silhouette Index에 대한 내용은 아래 포스팅을 참고하기 바란다. 12. 클러스터링(군집화) 평가 지표 Dunn Index with Python 14. 클러스터링(군집화) 평가지표 Silhouette(실루엣) 지수(계수)에 대해서 알아보자 with Python - 목차 - Calinski-Harabasz index Davies-Bouldin index Cali.. 2023. 1. 22.
32. Gain Chart와 Lift Chart에 대해서 알아보자 with Python 이번 포스팅에서는 분류 모형의 성능을 시각적으로 알아보는 방법인 Gain Chart와 Lift Chart에 대해서 알아본다. 또한 파이썬(Python)을 이용하여 구현하는 방법도 알아보려고 한다. Gain Chart와 Lift Chart Gain Chart와 Lift Chart를 알아보기 전에 몇 가지 세팅을 하고 넘어가자. 먼저 데이터 $(x_i, y_i), i=1, \ldots, n$가 있다고 하자. 이때 $x_i \in \mathbb{R}^p$인 $p$ 차원 설명 변수 벡터이고 $y_i \in \{ 0, 1 \}$인 범주형 반응 변수이다. 또한 학습된 분류 모형 $f$는 $f : \mathbb{R}^p \rightarrow [0, 1]$인 함수이다. 이 함수는 주어진 $x\in \mathbb{R}^.. 2023. 1. 17.
31. 지도 학습 모형 성능 지표에 대해서 알아보자 with Python 이번 포스팅에서는 지도 학습 알고리즘을 통해 만들어진 예측 모형의 성능을 평가하는 지표에 대해서 알아보려고 한다. 성능 지표는 크게 분류 모형과 회귀 모형에 대한 지표로 나눌 수 있다. 여기에서는 분류 모형에 대한 성능 지표로 정분류율(Accuracy), 정밀도(Precision), 민감도(Sensitivity 또는 재현율 Recall)와 특이도(Specificity) 그리고 F1-Score를 알아볼 것이다. 그리고 회귀 모형에 대한 지표는 결정계수(Coefficient of Determination 또는 R Square), 평균 제곱 오차(Mean Square Error : MSE) 그리고 평균 절대 오차(Mean Absolute Error : MAE)에 대해서 알아본다. 그리고 각 성능 지표를 파이썬.. 2023. 1. 13.
[Change Point Detection] 1. CUSUM(Cumulative Sum) 알고리즘에 대해서 알아보자 with Python 이번 포스팅에서는 Change Point Detection 알고리즘의 하나인 CUSUM(CUmulative SUM) 알고리즘에 대한 개념을 알아보고자 한다. 또한 파이썬(Python)으로 구현하는 과정과 예제를 통하여 알고리즘의 작동 원리를 살펴보고자 한다. - 목차 - 1. CUSUM 알고리즘 2. 파이썬(Python) 구현 3. 장단점 1. CUSUM 알고리즘 1) 문제 정의 CUSUM 알고리즘이 풀고자 하는 문제는 시계열 내에 급격한 변경점이 없다는 가설 $H_0$와 하나의 변경점이 있다는 가설 $H_a$을 세우고 $H_0$과 $H_a$ 중에 어떤 것을 선택해야 하는 문제가 있다. 이 문제만 해결되면 변경점은 자연스럽게 추정할 수 있다. 이를 구체적으로 살펴보자. 먼저 시계열 데이터 $X_t, t=.. 2023. 1. 2.

맨 위로