본문 바로가기

전체 글523

[Pandas] 16. apply 함수 사용법 알아보기. 안녕하세요~ 꽁냥이에요. 데이터 전처리를 하다 보면 특정 열을 변환해야 할 때가 있지요. 예를 들어 회귀 모형을 구축할 때 설명 변수를 log 함수를 이용하여 변환하는 것처럼 말이죠. Pandas에서는 데이터 변환을 쉽게 해주는 강력한 기능을 제공하는데요. 그건 바로 이번 포스팅에서 다룰 apply 함수입니다. 여기서 다루는 내용은 다음과 같습니다. 1. apply 함수 기본 사용법 2. apply 함수 응용 - 특정 열과 행에 함수 적용하기 - 인자를 받는 함수 적용하기 - 특정 조건에 맞는 행에 함수 적용하기 1. apply 함수 기본 사용법 먼저 이번 포스팅에서 필요한 모듈을 임포트합니다. import numpy as np import pandas as pd 다음으로 예제용 데이터를 만들어줍니다. .. 2021. 1. 19.
[머신 러닝] 5. EM(Expectation-Maximization) Algorithm(알고리즘)에 대해서 알아보자. 오늘은 최대 우도 추정량을 구하는 방법 중에 하나인 EM Algorithm(알고리즘)에 대해서 알아보려고 한다. 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 PC 웹 브라우저 또는 모바일 웹 브라우저에서 보시기 바랍니다. EM 알고리즘이란? EM 알고리즘이란 무엇인가 EM(Expectation-Maximization) 알고리즘은 Latent 변수를 도입하여 최대 우도 추정량을 구하는 방법이다. 여기서 Latent 변수는 실제로 관측이 되지 않았지만 관측된 데이터에 상호 영향을 미치리라 판단되는 변수를 말한다. 예를 들면 Gaussian Mixture 모형에서 그룹을 나타내는 변수가 Latent 변수에 해당한다. 왜냐하면 그룹 변수는 실제로 관측되지.. 2021. 1. 19.
[일반화 선형 모형(Generalized Linear Model)] 6. Count 데이터 - Poisson Log Linear Model 적합하기 with Python 반응 변수 중에는 특정 기간 동안에 발생한 특정 사건 횟수 정보가 담긴 경우가 종종 있다. 예를 들어 1주일에 음주 횟수, 담배 흡연 횟수 등이 있다. 이처럼 횟수 정보를 가지는 반응 변수는 포아송(Poisson) 분포를 따른다고 볼 수 있다. 일반화 선형 모형은 반응 변수가 포아송 분포를 따르는 경우에 적합한 모형을 제공한다. 이번 포스팅에서는 포아송 분포를 따르는 반응 변수에 대하여 모형을 적합하는 방법을 소개한다. 여기서 다루는 내용은 다음과 같다. 1. 모형 적합 알고리즘 유도 2. 실제 데이터 적용 1. 모형 적합 알고리즘 유도 먼저 모형 적합 알고리즘에 일반적인 내용을 다룬 포스팅이 있으니 반드시 읽어보기 바란다. 우도방정식과 모형 적합 우리에게 데이터 $(\tilde{x}_i, y_i), \.. 2021. 1. 16.
[히스토그램(Histogram)] 2. Matplotlib을 이용하여 히스토그램 여러개 그리기. 안녕하세요~ 꽁냥이에요. 이번 포스팅에서는 Matplotlib을 이용하여 히스토그램을 여러개 그려보는 방법에 대해서 알아보겠습니다. 히스토그램을 그리는 기본적인 방법과 꾸미는 방법은 여기를 참고하세요. 여기서 다루는 내용은 다음과 같습니다. 1. 히스토그램 여러개 그리기 2. 스택 히스토그램 그리기 1. 히스토그램 여러개 그리기 히스토그램을 여러개 그리는 방법은 쉽습니다. 히스토그램을 그리고자하는 개수 만큼 hist를 호출하면 됩니다. 아래 코드를 살펴보겠습니다. import numpy as np import matplotlib.pyplot as plt np.random.seed(1) ## 두개의 데이터 생성 mu, sigma = 5, 1 x = mu + sigma * np.random.randn(100.. 2021. 1. 15.
[히스토그램(Histogram)] 1. Matplotlib을 이용하여 히스토그램 그리기. 안녕하세요~ 꽁냥이에요. 히스토그램(Histogram)은 수치형 데이터의 분포를 시각적으로 표현해주는 고마운 친구인데요. 이번 포스팅에서는 Matplotlib을 이용하여 히스토그램을 그려보는 방법에 대해서 알아보겠습니다. 여기서 다루는 내용은 다음과 같습니다. 1. 기본 히스토그램 그리기 2. 히스토그램 꾸미기 1. 기본 히스토그램 그리기 Matplotlib에서는 hist를 이용하여 히스토그램을 그릴 수 있습니다. hist의 기본적인 사용법은 다음과 같습니다. hist( x, bins , density=False, . . . ) x는 히스토그램을 그릴 데이터 배열, bins는 막대기 수, density는 False인 경우 y축을 도수로, True인 경우 y축을 비율로 표시합니다. 코드를 통하여 확인해볼까.. 2021. 1. 11.
[논문 리뷰] 2. Regression Shrinkage and Selction via the LASSO 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 PC 웹 브라우저 또는 모바일 웹 브라우저에서 보시기 바랍니다. 이번 포스팅에서는 LASSO의 명칭이 탄생하게 된 논문 'Regression Shrinkage and Selction via the LASSO'을 리뷰하고 파이썬으로 구현해보고자 한다. 여기서 다루는 내용은 다음과 같다. Summary 1. Introduction 2. The LASSO 3. Example -Prostate Cancer Data 4. Prediction Error and Estimation of $t$ 5. LASSO as Bayes Estimate 6. Algorithms for Finding LASSO Solutions .. 2021. 1. 9.
[일반화 선형 모형(Generalized Linear Model)] 5. Ungrouped Binary 데이터에 모형 적합하기 with Python 이번 포스팅에서는 이전 포스팅에서 다룬 Grouped Binary 데이터의 특수한 케이스인 Ungrouped Binary 데이터에 대하여 GLM을 적합시키는 방법에 대해 알아보려고 한다. 먼저 우도 방정식과 모형 적합에 관한 내용을 여기에 다루었으니 반드시 읽어보자. 여기서 다루는 내용은 다음과 같다. 1. Ungrouped Binary 데이터란? 2. 모형 적합 알고리즘 유도 3. 실제 데이터 적용 1. Ungrouped Binary 데이터란? Ungrouped Binary 데이터란 데이터 하나에 대하여 2개의 범주를 갖는 반응 변수가 하나 있는 것이다. 말을 어렵게 했는데 지도학습(Supervised Learning)에서 2진(Binary) 분류 모형을 만들기 위해 사용하는 학습 데이터라고 생각하면 .. 2021. 1. 1.
[일반화 선형 모형(Generalized Linear Model)] 4. Grouped Binary 데이터에 모형 적합하기 with Python 이번 포스팅에서는 Grouped Binary(GB) 데이터가 주어졌을 때 GLM 모형을 적합하는 방법에 대하여 알아보려고 한다. GLM 모형 적합에 대한 내용은 여기를 참고하기 바란다. 여기서 다루는 내용은 다음과 같다. 1. Grouped Binary 데이터란? 2. 모형 적합 알고리즘 유도 3. 실제 데이터 적용 1. Grouped Binary 데이터란? Grouped Binary 데이터가 생소할 수도 있으니 이것이 무엇인지 확인해보자. Binary라는 것은 관심의 대상이 되는 변수가 2개의 클래스를 갖는 범주형 데이터를 의미한다. Grouped Binary 데이터는 각 그룹별로 Binary 데이터의 개수와 관심 범주의 비율로 이루어진 데이터를 의미한다. 물론 각 그룹별 설명변수도 있을 수 있다. 예.. 2021. 1. 1.
[논문 리뷰] 1. Robust Locally Weighted Regression and Smoothing Scatterplots 본 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 웹 브라우저 또는 모바일 웹에서 보시기 바랍니다. 이번 포스팅에서는 William S. Cleveland의 1979 논문인 'Robust Locally Weighted Regression and Smoothing Scatterplots'을 리뷰하고 파이썬을 이용하여 구현해보려고 한다. 이번 포스팅의 구성은 다음과 같다. Abstract 1. Introduction 2. LWR and Robust LWR 3. Example 4. Choosing Parameter 5. Computation 6. Estimation and Sampling Distributions for LWR 7. Variance, Bias.. 2020. 12. 29.
[머신 러닝] 4. 나이브 베이즈 분류기(Naive Bayes Classifier) with Python 이번 포스팅에서는 나이브 베이즈 분류기(Naive Bayes Classifier : NBC)에 대해서 알아보려고 한다. 먼저 나이브 베이즈 분류기를 알아보기 전에 베이즈 분류기에 대해서 알면 좋다. 왜냐하면 베이즈 분류기랑 나이브 베이즈 분류기랑 헷갈릴 수 있기 때문이다. 베이즈 분류기에 대해서는 이전 포스팅에서 다루었으니 한번 보고 오면 좋다. 여기서 다루는 내용은 다음과 같다. 1. 나이브 베이즈 분류기 2. 실제 데이터 적용 3. 나이브 베이즈 분류기 장단점 1. 나이브 베이즈 분류기 - 정의 - 이전 포스팅에서 베이즈 분류기는 0-1 손실 함수의 기대값을 최소화시키는 분류기라고 하였다. 또한 독립변수 $X$, 출력 변수 $y(\in \{1, 2, \ldots, J\})$에 대하여 베이즈 분류기를 .. 2020. 12. 26.

맨 위로