본문 바로가기

통계95

ANOVA(Analysis of Variance, 분산분석)에 대해서 알아보자. 이번 포스팅에서는 ANOVA(Analysis of Variance, 분산분석)의 개념과 One Way ANOVA(일원분산분석), Two Way ANOVA(이원분산분석)에 대해서 복습하고 정리해보았다. - 목차 - 1. ANOVA(Analysis of Variance) 2. One Way ANOVA(일원분산분석) 3. Two Way ANOVA(이원분산분석) 4. ANOVA 장단점 1. ANOVA(Analysis of Variance) 1) 정의 ANOVA는 ANalysis Of VAriance의 준말로 관심의 대상이 되는 변수에 대한 변동성의 원천을 통계적 모델링으로 분석하는 방법론을 의미한다. 2) 파헤치기 위에서 소개한 정의를 하나씩 파헤쳐보자. a. ANOVA는 관심 변수의 변동성의 원천을 분석한다... 2022. 12. 6.
통계학이란 무엇인가? 전공이 통계학이지만 통계학이 무엇인지에 대해서 진지하게 고민하지 않았던 것 같다. 이번 포스팅에서는 통계학이 무엇인지 자료들을 찾아보고 내 생각과 결합하여 나름 정리한 내용을 소개하고자 한다. 통계학이란 무엇인가? 1) 통계란 무엇인가 통계학을 말하기 전에 통계가 무엇인지 짚고 넘어가려고 한다. 통계의 정의는 다음과 같다. 통계란 분석하고자 하는 집단에 대해서 조사하거나 실험을 통해서 얻는 자료 또는 이의 요약된 형태를 말한다. 통계의 정의를 예를 들어서 파헤쳐보기로 한다. 아래 그림은 A 고등학교 3학년 학생들의 수학 성적을 조사하는 과정을 나타낸 것이다. 먼저 통계는 분석하고자하는 집단을 특정한다. 여기서는 A 고등학교 3학년 전체 학생 또는 그중에서 추출된 3학년 1반 학생이 될 수도 있다. 분석하.. 2022. 11. 7.
30. DBSCAN에 대해서 알아보자 with Python 이번 포스팅에서는 클러스터링 알고리즘 중 하나인 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)에 대해서 알아보고자 한다. - 목차 - 1. DBSCAN이란 무엇인가? 2. DBSCAN 알고리즘 3. DBSCAN 장단점 4. 파이썬(Python) 구현 5. 예제 1. DBSCAN이란 무엇인가? 1) 정의 DBSCAN은 Density-Based Spatial Clustering of Applications with Noise의 준말로 그 정의는 다음과 같다. DBSCAN은 서로 인접한 데이터들은 같은 클러스터일 것이라는 아이디어에 착안하여 만들어졌으며 특정 데이터를 중심으로 밀도가 높은 곳에 포함된 데이터에는 클러스터를 할당하고 밀도.. 2022. 11. 3.
29. Piecewise Polynomial(Constant, Linear) Regression에 대해서 알아보자 with Python 이번 포스팅에서는 Piecewise Polynomial(Constant, Linear) Regression에 대한 개념과 이를 파이썬으로 구현하는 방법에 대해서 알아보려고 한다. - 목차 - 1. Piecewise Polynomial Regression 이란 무엇인가? 2. Piecewise Polynomial Regression 알고리즘 3. 장단점 4. 파이썬 구현 1. Piecewise Polynomial Regression 이란 무엇인가? 1) 정의 Piecewise Polynomial Regression(PPR)은 주어진 매듭점으로 나누어진 영역에서 설명 변수의 다항 함수로 회귀 함수를 추정하는 방법을 말한다. 2) 파헤치기 앞에서 살펴본 정의를 하나하나 살펴보자. 이때 설명과 구현의 편의를 위.. 2022. 10. 20.
가중치를 활용한 통계량을 알아보자. 가중 평균(Weighted Mean), 가중 상관계수(Weighted Correlation), 가중 분위수 (Weighted Quantile) 이번 포스팅에서는 각 데이터가 갖고 있는 가중치를 활용한 통계량으로 가중 평균(Weighted Mean), 가중 상관계수( Weighted Correlation ), 가중 분위수(Weighted Quantile)를 소개하고자 한다. - 목차 - 1. 가중치를 고려하는 이유? 2. 가중 평균(Weighted Mean) 3. 가중 상관계수( Weighted Correlation ) 4. 가중 분위수(Weighted Quantile) 5. 가중치 통계량의 장단점 1. 가중치를 고려하는 이유? 데이터가 주어진 경우 개별 데이터의 가치 또는 신뢰할 수 있는 정도가 다르기 때문에 단순히 주어진 데이터가 아닌 가치나 신뢰도를 반영하기 위해서 고려하는 것이다. 예를 들어 다음과 같이 A 인턴, B 선임, C 팀장에 대.. 2022. 9. 25.
Feature Selection using Stochastic Gates 비선형 모형에서의 변수 선택 방법론을 제시한 Feature Selection using Stochastic Gates 논문을 읽고 정리해본다. - 목차 - 1. Introduction 2. Problem Setup and Background 3. Proposed Method 4. Connection to Mutual Information 5. Related Work 6. Experiments 7. Cox Proportional Hazard Models for Survival Analysis 8. Evaluating Stochastic Regularization Schemes 9. Feature Selection with Correlations 10. Conclusion 1. Introduction 머신 .. 2022. 9. 14.
Multivariate Adaptive Regression Splines 이번 포스팅에서는 Friedman의 명작 Multivariate Adaptive Regression Splines(MARS)를 읽고 정리해본다. - 목차 - 1. Introduction 2. Existing Methodology 3. Adaptive Regression Splines 4. Simulation Studies and Examples 5. Remarks 6. Conclusion 1. Introduction 관측 데이터 $(x_i, y_i), i=1, \ldots, n$가 있다고 해보자. 이때 $x_i=(x_{i1}, \ldots, x_{ip})$이다. 이때 반응 변수와 설명 변수 간에 다음과 같은 관계가 있다고 가정해보자. $$y = f(x_1, \ldots, x_p)+\epsilon\tag{.. 2022. 9. 13.
28. K-Modes Clustering(클러스터링, 군집화)에 대해서 알아보자 with Python 오늘은 기존 연속형 변수에서만 작동하는 K-Means 클러스터링이나 Gaussian Mixture Model 클러스터링과는 달리 범주형 변수에 대한 군집화 기법인 K-Modes Clustering(클러스터링, 군집화)에 대해서 알아보려고 한다. 또한 파이썬(Python) 구현 방법을 알아보고 클러스터링(군집화) 알고리즘을 실제 데이터에 적용해보자. 이번 포스팅에서 다루는 내용은 다음과 같다. - 목차 - 1. K-Modes Clustering(클러스터링, 군집화) 정의 2. K-Modes Clustering(클러스터링, 군집화) 알고리즘 3. K-Modes Clustering(클러스터링, 군집화) 장단점 4. 파이썬(Python) 구현 K-Means 클러스터링에 대한 내용이 궁금한 분들은 아래 포스팅을 .. 2022. 9. 4.
27. Partial Dependence Plot (부분 의존도 그림), Individual Conditional Expectation Plot (개별 조건부 평균 그림)에 대해서 알아보자 with Python 이번 포스팅에서는 머신러닝 예측 모형의 해석을 도와주는 시각화 방법인 Partial Dependence Plot (부분 의존도 그림), Individual Conditional Plot (개별 조건부 평균 그림)에 대해서 소개한다. 또한 파이썬을 이용한 구현 방법을 소개한다. - 목차 - 1. Partial Dependence Plot 2. Individual Conditional Expectation Plot 1. Partial Dependence Plot(부분 의존도 그림) 1) 정의 Partial Dependence Plot (부분 의존도 그림)은 학습된 예측 모형과 (예측에 사용된) 개별 변수의 관계를 시각화한 그림이다. 위의 말을 자세히 뜯어보자. 부분 의존성? 그게 뭐야? 부분 의존성은 다변수.. 2022. 9. 2.
26. 변수 중요도(Variable Importance) with Python 이번 포스팅에서는 변수 중요도(Variable Importance)가 무엇인지 알아보고 자주 활용되는 변수 중요도로써 Correlation, Linear Regression Coefficient를 이용한 변수 중요도, Mean Decrease in Impurity(MDI)와 Gini Importance 그리고 Permutation Importance와 Mean Decrease in Accuracy를 소개한다. 또한 파이썬(Python)을 통한 구현 방법도 소개한다. - 목차 - 1. 변수 중요도란? 2. Correlation, Linear Regression Coefficient 3. Mean Decrease in Impurity(MDI), Gini Importance 4. Permutation Impo.. 2022. 8. 27.

맨 위로