본문 바로가기

전체523

[머신 러닝] 3. 베이즈 분류기(Bayes Classifier) 이번 포스팅에서는 베이즈 분류기(Bayes Classifier)에 대해서 알아보고자 한다. 여기서 다루는 내용은 다음과 같다. 1. 베이즈 분류기(Bayes Classifier) 정의 2. 베이즈 분류기 추정 방법 1. 베이즈 분류기(Bayes Classifier) 정의 먼저 설명의 편의를 위하여 이진 분류 문제를 생각하기로 하자. 출력 변수 $y$가 가질 수 있는 라벨을 $G=\{1, -1\}$라하자. 분류 문제는 주어진 독립변수(또는 설명변수) $X$에 대하여 $y$를 예측하는 문제이다. 먼저 다음과 같이 분류기 공간 $C^*$를 정의한다. $$C^* = \{f : S \rightarrow G\}$$ 여기서 $S$는 독립변수가 가질 수 있는 값들의 집합이다. 분류기 공간은 주어진 독립변수$X(\in .. 2020. 12. 21.
[회귀 분석] 11. Bootstrapping을 이용한 회귀추정량 추론하기 with Python 안녕하세요~ 꽁냥이에요! 이번 포스팅에서는 비모수 방법인 Bootstrapping을 이용한 회귀 추정량을 추론하는 방법에 대해서 알아보려고 합니다. 여기서 다루는 내용은 다음과 같습니다. 1. Bootstrapping을 이용한 회귀 추정량 추론 방법 2. 실제 데이터 적용 with Python 1. Bootstrapping을 이용한 회귀 추정량 추론 방법 - 언제 사용하는가 - 1) 오차의 분포가 정규분포가 아니라고 판단될 때 최소 제곱 회귀 추정량에 대한 추론은 통계학의 관심 분야 중 하나입니다. 추정량에 대한 신뢰성(또는 불확실성)을 신뢰구간 또는 검정을 통하여 확인하고 싶기 때문이지요. 회귀 추정량의 추론을 수행하기 위하여 일반적으로 오차의 분포를 정규분포로 가정합니다(이에 대한 설명은 추후 포스팅.. 2020. 12. 16.
[머신 러닝] 2. K-최근접 이웃 분류기(K-Nearest Neighbor Classifier)에 대하여 알아보자 with Python 이번 포스팅에서는 k-근접 이웃 분류기에 대해서 알아보고자 한다. k-근접 이웃 분류기는 실제로 잘 활용되지는 않지만 데이터를 이용하여 분류하는 기본적인 과정을 이해하는데 유용하며 때에 따라서 다른 예측 분류기의 비교를 위한 기초 모형이 될 수 있다. 이번 포스팅에서 다루는 내용은 다음과 같다. 1. k-근접 이웃 분류기란 무엇인가 2. k-근접 이웃 분류기 모의 실험 with Python 3. 실제 데이터 적용해보기 with Python 4. k-근접 이웃 분류기 장단점 1. k-근접 이웃 분류기란 무엇인가 - 정의 - k-근접 이웃 분류기(k-Nearest Neighbor : kNN)는 특정 입력 데이터가 주어졌을 때 입력 데이터와 가까운 k개의 데이터를 이용하여 예측하는 모형이다. 우리에게 데이터 .. 2020. 12. 15.
[상자 수염 그림(Box and Whisker Plot)] 2. Matplotlib을 이용하여 그룹 상자 수염 그림(박스 플롯) 그리기 안녕하세요~ 꽁냥이에요. 데이터 분석을 하다 보면 2개의 카테고리별로 범주를 나누고 해당 범주의 데이터 분포를 시각화해야 할 상황이 있지요. 이때 사용할 수 있는 그래프로 그룹 바 차트, 스택 바 차트, 또는 파이 그래프가 있습니다. 이에 대한 내용은 아래의 링크를 참고하세요. Matplotlib을 이용하여 그룹 바 차트 그리기 Matplotlib을 이용하여 스택 바 차트 그리기 Matplotlib을 이용하여 하위 카테고리를 포함하는 파이 차트 그리기 이번 포스팅에서는 2개의 카테고리별로 데이터의 분포를 확인할 수 있는 그룹 상자 수염 그림(또는 박스 플롯)을 그리는 방법에 대하여 소개하겠습니다. 그룹 상자 수염 그림(박스 플롯) 그리기 먼저 이번 포스팅에서 필요한 모듈을 임포트하고 데이터를 만들어보겠습.. 2020. 12. 5.
[회귀 분석] 10. 가중 최소 제곱법(Weigted Least Square)으로 회귀 모형 적합하기 with Python 안녕하세요~ 꽁냥이에요! 선형 회귀 모형의 가정 중에서 오차가 설명변수에 의존하지 않는 등분산성 가정이 있습니다. 하지만 때때로 이 가정을 만족하지 않는 상황이 발생할 수 있는데요. 이런 상황에서 최소 제곱 회귀 추정량은 좋지 않은 성질을 갖고 있지요. 따라서 최소 제곱법이 아닌 다른 추정법을 이용하여 회귀 모형을 만들어야 합니다. 이때 사용하는 것이 오늘 소개할 가중 최소 제곱법(Weighted Least Square)입니다. 이번 포스팅에서는 가중 최소 제곱법(Weighted Least Square)과 파이썬(Python)을 이용한 예제를 알아보겠습니다. 1. 가중 최소 제곱법(Weighted Least Square)이란? 2. 가중 최소 제곱(Weighted Least Square) 모형 적합하기 .. 2020. 12. 4.
[상자 수염 그림(Box and Whisker Plot)] 1. Matplotlib을 이용하여 상자 수염 그림 그리기 안녕하세요~ 꽁냥이에요. 상자 수염 그림(Box and Whisker Plot 또는 Box Plot)은 데이터의 분포를 시각화하는데 많이 사용되고 있습니다. 이번 포스팅에서는 상자 수염 그림이 무엇인지 Matplotlib을 이용하여 상자 수염 그림을 어떻게 그리는지에 대해서 알아보겠습니다. 이번 포스팅에서 다루는 내용은 다음과 같습니다. 1. 상자 수염 그림이란? 2. 상자 수염 그리기 3. 상자 수염 그림 여러개 그리기 1. 상자 수염 그림이란? 상자 수염 그림은 데이터의 분포를 시각화하는 그림으로써 활용되며 데이터의 사분위 수(Quartile)를 이용한다는 특징이 있습니다. 상자 수염 그림을 설명하기 위해서는 사분위 수와 사분위 범위를 알아야합니다. 먼저 사분위 수는 데이터를 내림차순으로 정렬했을 때.. 2020. 12. 3.
[Pandas] 15. 결측치(Missing Value) 처리하기 안녕하세요~ 꽁냥이에요. 대부분의 데이터는 꽉 채워져 있는 것이 아닌 빈 데이터가 포함되어 있지요. 이러한 빈 데이터를 결측치라고 합니다. 데이터 분석자는 이러한 결측치를 제거하거나 대체하는 등 적절한 처리를 해야 합니다. 따라서 이번 포스팅에서는 결측치(또는 결측값)를 처리하는 방법에 대해서 소개하려고 합니다. 여기서 다루는 결측치는 빈 문자열, None, NaN 총 3가지이며 이번 포스팅에서 다루는 내용은 다음과 같습니다(None과 NaN에 대한 설명은 여기를 참고하세요). 1. 결측치 확인 2. 결측치 대체 3. 결측치 제거 1. 결측치 확인 먼저 이번 포스팅에서 사용할 데이터를 만들어봅시다. import pandas as pd import numpy as np data = { 'Fruit' : [.. 2020. 12. 2.
[회귀 분석] 9. 능형 회귀(Ridge regression) 모형 적합하기 with Python 안녕하세요~ 꽁냥이에요! 회귀 분석에서 회귀계수 추정량의 분산이 크다면 모형의 신뢰도가 떨어지게 됩니다. 이때 고려해볼 수 있는 것으로 능형 회귀(Ridge regression) 추정법이 있습니다. 능형 회귀 추정법은 회귀 계수 추정량의 편의가 발생하지만 분산을 줄여주는 방법인데요. 특히 변수들 간에 다중공선성이 존재할 경우 능형 회귀 모형을 사용할 수 있지요. 이번 포스팅에서는 능형 회귀 모형을 적합하는 방법과 파이썬(Python)을 이용한 예제를 알아보겠습니다. 1. 능형 회귀(Ridge Regression) 추정법이란? 2. 능형 회귀(Ridge Regression) 모형 적합하기 with Python 1. 능형 회귀(Ridge Regression) 추정법이란? 능형 회귀 추정법은 기존의 오차제곱합.. 2020. 12. 1.
[머신 러닝] 1. 소개 이번 포스팅에서는 머신러닝이 무엇인지 생각하고 적어보았다. -- 목차 -- 1. 머신러닝이란? 2. 머신러닝의 종류 3. 통계학 vs 머신러닝 1. 머신러닝이란? 머신러닝은 데이터로부터 패턴을 인식하고 이를 바탕으로 스스로 의사 결정할 수 있는 알고리즘을 개발하는 학문 분야이다. 2. 머신러닝의 종류 2-1. 지도 학습(Supervised Learning) - 지도 학습 - 성별과 몸무게를 이용하여 그 사람의 키를 예측하는 것, 해당 메일의 텍스트를 파악하여 스팸인지 아닌지 예측하는 것과 같이 주어진 데이터를 이용하여 예측하고 싶은 변수가 있다고 하자. 여기서 예측하고 싶은 변수를 $y$라하고 $y$에 영향을 주리라고 생각하는 데이터를 $X$라 하자. 쉽게 말하면, $X$와 $y$는 각각 입력값과 그에 .. 2020. 11. 27.
[Pandas] 14. 데이터 그룹별로 집계하기 안녕하세요~ 꽁냥이에요. 데이터를 분석하다 보면 그룹별로 집계하여 데이터를 요약해야 할 일이 많이 있지요. 예를 들면 성별 평균 키를 계산하는 것처럼요. 이번 포스팅에서는 Pandas를 이용하여 그룹별로 각종 통계값을 계산하는 방법에 대해서 소개하려고 합니다. 여기서 다루는 내용은 다음과 같습니다. 1. 데이터 그룹별 집계하기 2. 데이터 그룹별 각종 통계값 동시에 계산하기 3. 데이터 그룹별 두개 이상의 칼럼에 대하여 집계하기 1. 데이터 그룹별 집계하기 먼저 이번 포스팅에서 사용할 샘플 데이터를 다운받아주세요. 다운받으셨다면 필요한 모듈을 임포트하고 데이터를 불러와주세요. import pandas as pd df = pd.read_csv('sample.csv', encoding='cp949') ## .. 2020. 11. 24.

맨 위로