본문 바로가기

통계95

XGBoost : A Scalable Tree Boosting System 이번 포스팅에서는 Boosting 계의 정점이라고 할 수 있는 XGBoost를 소개한 논문인 "A Scalable Tree Boosting System"을 읽고 정리해보려고 한다. - 목차 - 1. Introduction 2. Tree Boosting In A Nutshell 3. Split Finding Algorithms 4. System Design 5. Related Works 6. End to End Evaluation 7. Conclusion 1. Introduction 머신 러닝은 많은 분야에서 중요한 도구로써 활약하고 있다. 그 이유는 2가지가 있다. 첫 번째는 복잡한 패턴을 학습하는 효율적인 모형의 사용, 두 번째는 대용량 데이터에 대해서도 학습이 가능하도록 하는 확장성이다. 머신러닝 방.. 2022. 6. 24.
Greedy Function Approximation : A Gradient Boosting Machine 이번엔 Gradient Boosting(GB)의 시초인 Friedman의 2001년 논문 Greedy Function Approximation : A Gradient Boosting Machine을 읽고 정리해보았다. - 목차 - 1. Function Estimation 2. Numerical Optimization in Function Space 3. Finite Data 4. Applications : Additive Modeling 5. Regularization 6. Simulation Studies 7. Tree Boosting 8. Interpretation 9. Real Data 10. Data Mining 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지.. 2022. 6. 15.
20. Gradient Boosting 알고리즘에 대해서 알아보자 with Python 이번 포스팅에서는 Gradient Boosting의 개념과 알고리즘을 소개하며 이를 응용한 Gradient Tree Boosting의 개념과 알고리즘도 소개한다. 그리고 Gradient Tree Boosting 알고리즘을 파이썬으로 직접 구현하는 방법을 소개한다. 이렇게 구현한 것을 실제 데이터에 적용하는 예제를 살펴보고 Scikit-Learn에서 제공하는 결과와 비교해보고자 한다. 이 글을 읽기 전에 의사결정나무와 AdaBoosting 관련 내용을 보고 오기 바란다. 9. 의사결정나무(Decision Tree)에 대해서 알아보자 with Python 15. AdaBoost(Adaptive Boost) 알고리즘에 대해서 알아보자 with Python - 목차 - 1. Gradient Boosting이란?.. 2022. 6. 13.
Random Forests 이번 포스팅에서는 랜덤 포레스트를 제안한 Breiman의 Random Forests 논문을 읽고 정리한다. 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 PC 웹 브라우저 또는 모바일 웹 브라우저에서 보시기 바랍니다. Abstract 랜덤 포레스트의 일반화 오류는 트리의 개수가 커질수록 수렴한다. 그리고 분류 나무로 이루어진 포레스트의 일반화 오류는 개별 나무의 정확도와 나무 사이의 상관성에 따라 달라진다. 분리할 변수들을 랜덤으로 선택하는 경우 오류율이 AdaBoost와 맞먹을 정도가 되며 노이즈의 더 강건하다. Random Forests 1.1 Introduction 앙상블 나무를 성장시키고 나무들의 분류 결과 중 다수로 뽑힌 클래스를 해당 클래.. 2022. 5. 27.
19. 서포트 벡터 머신(Support Vector Machine)에 대해서 알아보자 with Python 딥러닝이 나타나기 전에 전성기를 구가했던 서포트 벡터 머신(Support Vector Machine)에 대해서 공부한 내용을 포스팅하려고 한다. 서포트 벡터 머신에 대한 개념과 종류 그리고 파이썬으로 구현하는 방법을 소개한다. 구현은 직접 구현을 해보고 Scikit-learn에서 제공하는 것과 비교하려고 한다. 이번 포스팅에서 다루는 내용은 다음과 같다. 1. 서포트 벡터 머신(Support Vector Machine)이란? 2. 서포트 벡터 머신(Support Vector Machine) 종류 3. 서포트 벡터 머신(Support Vector Machine) 장단점 4. 파이썬 구현 이곳은 꽁냥이가 머신러닝을 공부한 내용을 정리하는 곳입니다. 이 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서.. 2022. 5. 16.
A Tutorial on Support Vector Regression Support Vector Machine의 아이디어를 어떻게 회귀 문제에 적용하는지 궁금해서 읽어본 자료이다. 이번 포스팅에서는 이를 공부한 내용을 정리한다. - 목차 - 1. Introduction 2. Kernels 3. Cost Functions 4. The Bigger Picture 5. Optimization Algorithms 6. Variations on a Theme 7. Regularization 8. Conclusion 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 PC 웹 브라우저 또는 모바일 웹 브라우저에서 보시기 바랍니다. 1. Introduction 이 글의 목적은 서포트 벡터 회귀(Support Vector Regressi.. 2022. 5. 15.
18. 다중 클래스(Multi-Class) 분류를 위한 One vs Rest, One vs One 방법을 알아보자. 이진(Binary) 클래스에서는 잘 동작하는 분류기(모형)들이 다중 클래스(Multi-Class) 분류 문제로 확장하기가 어려운 경우가 있다. 이때에는 다중 클래스(Multi-Class) 분류 문제를 여러 개의 이진 분류 문제로 쪼개서 해결할 수 있다. 다중 클래스(Multi-Class)에서 한 클래스를 1 나머지를 0으로 코딩하여 이진 분류기를 여러개 생성하는 One vs Rest 방법이 있고 다중 클래스 문제를 서로 다른 모든 클래스의 쌍으로 쪼개서 푸는 One vs One 방법이 있다. 이번 포스팅에서는 이 방법에 대한 내용을 소개한다. - 목차 - 1. One vs Rest 2. One vs One 이곳은 꽁냥이가 머신러닝을 공부한 내용을 정리하는 곳입니다. 이 포스팅에서는 수식을 포함하고 있습니.. 2022. 5. 9.
17. Dunn Index와 실루엣(Silhouette) 계수를 이용하여 최적 클러스터(군집, Cluster)개수 정하기 with Python 클러스터링 문제에서는 최적 클러스터(군집, Cluster) 개수를 정하는 것이 문제가 된다. 이번 포스팅에서는 Dunn Index와 실루엣(Silhouette) 계수를 이용하여 클러스터(군집, Cluster) 개수를 정하는 방법에 대해서 알아본다. - 목차 - 1. 데이터 준비 2. 최적 클러스터 개수 선정하기 이번 포스팅을 읽기에 앞서 Dunn Index와 실루엣(Silhouette) 계수에 대해서 생소하다면 아래 포스팅에 설명해 두었으니 참고하기 바란다. 12. 클러스터링(군집화) 평가 지표 Dunn Index with Python 12. 클러스터링(군집화) 평가 지표 Dunn Index with Python 이번 포스팅에서는 클러스터링(군집화)이 잘되었는지 정량적으로 확인할 수 있는 평가 지표로 D.. 2022. 5. 7.
16. 선형 회귀(Linear Regression) 모형에 대해서 알아보자 with Python 머신러닝 관련 포스팅을 하면서 아주 기본적이지만 이론적으로 강력한 선형 회귀 관련 내용을 포스팅하지 않았다는 것에 매우 놀랐다. 이번 포스팅에서는 선형 회귀 모형에 대해서 알아보고 파이썬(Python)을 이용하여 구현해보는 방법을 알아보려고 한다. 여기서 다루는 내용은 다음과 같다. 1. 선형 회귀(Linear Regression) 모형이란? 2. 선형 회귀(Linear Regression) 파이썬(Python) 구현하기 이 곳은 꽁냥이가 머신러닝을 공부한 내용을 정리하는 곳입니다. 이 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 웹브라우저 또는 모바일 웹브라우저로 보시길 바랍니다. 1. 선형 회귀(Linear Regression) 모형이란? - 정의.. 2022. 5. 6.
15. AdaBoost(Adaptive Boost) 알고리즘에 대해서 알아보자 with Python 이번 포스팅에서는 부스팅 알고리즘의 하나인 AdaBoost 알고리즘에 대해서 공부한 내용을 정리하고 직접 구현을 해보려고 한다. 또한 sklearn에서 제공하는 AdaBoost 알고리즘과 성능을 비교해보고자 한다. 이 글을 읽기 전에 의사결정나무에 대한 내용 정도는 알고 오면 좋다. 아래에 포스팅한 것이 있으니 참고하면 좋다. 9. 의사결정나무(Decision Tree) 에 대해서 알아보자 with Python 9. 의사결정나무(Decision Tree) 에 대해서 알아보자 with Python 이 곳은 꽁냥이가 머신러닝을 공부한 내용을 정리하는 곳입니다. 이 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 웹브라우저 또는 모 zephyrus1111.ti.. 2022. 5. 6.

맨 위로