전체523 [Pandas] 13. 날짜를 이용하여 데이터 조회하기 안녕하세요~ 꽁냥이에요. 데이터는 시간에 따라서 발생하는 경우가 많지요. 따라서 데이터 속에는 언제 생성되었는지 알려주는 시간 또는 날짜 정보가 포함되어 있지요. 이에 따라 날짜 정보를 이용하여 특정 데이터를 조회하거나 그룹으로 묶어주는 경우가 많이 있어요. 이번 포스팅에서는 날짜를 이용하여 데이터를 조회하고 데이터를 그룹화 방법에 대해서 알아보겠습니다. 여기서 다루는 내용은 다음과 같습니다. 1. 특정 요일에 해당하는 데이터 조회하기 2. 특정 날짜에 해당하는 데이터 조회하기 3. 특정 날짜 범위에 해당하는 데이터 조회하기 4. 그룹화하기 1. 특정 요일에 해당하는 데이터 조회하기 먼저 이번 포스팅에서 사용할 데이터를 다운받아주세요. 해당 데이터는 1981년부터 1990년까지의 오스트레일리아 멜버른 평.. 2020. 11. 21. [일반화 선형 모형(Generalized Linear Model)] 3. 우도방정식과 모형 적합(Model Fitting) 이번 포스팅에서는 일반화선형모형(Generalized Linear Model : GLM)에 대한 우도방정식(Likelihood Equation)과 반응(Response) 변수의 확률밀도함수가 Exponential Dispersion Family일때 일반화 선형 모형을 적합하는 과정에 대해서 정리하겠다. Exponential Dispersion Family에 대한 설명은 여기를 참고하기 바란다. 이번 포스팅을 이해하기 위해서 이전 포스팅을 복습하고 오면 좋다. [일반화 선형 모형(Generalized Linear Model)] 2. Exponential Dispersion Family에 대하여 [일반화 선형 모형(Generalized Linear Model)] 1. 일반화 선형 모형 소개 목차 1. 우도 .. 2020. 11. 21. [회귀 분석] 8. 이상치(Outlier), 영향점(Influential Point) 탐지 with Python 안녕하세요~ 꽁냥이에요! 데이터 분석시 이상치는 관심을 갖고 살펴보아야하는데요. 이상치는 데이터를 만드는 사람의 실수에 의해서 발생할 수도 있고 데이터를 생성하는 시스템에 의하여 발생할 수도 있습니다. 이상치는 회귀 분석에서 양날의 검이라고도 할 수 있는데요. 이상치로 인하여 모형의 해석(회귀 계수의 해석)이 정확하지 않게 될 수 있지만 중요한 정보(시스템의 고장, 새로운 연관성의 발견 등)를 제공하기 때문이지요. 또한 이상치 중에서도 모형 여기서는 회귀계수 값의 변화를 크게 만드는 것이 있고 아닌 것이 있습니다. 이때 이상치 중에서 회귀계수 값의 변화를 크게 만드는 데이터를 영향점(Influential data)이라고 합니다. 영향점이라고 판단되는 데이터는 모형을 크게 변화시키기 때문에 제외시키기도 하.. 2020. 11. 2. [회귀 분석] 7. 다중공선성 확인하기 - 분산 팽창 인자 with Python 안녕하세요~ 꽁냥이에요! 이번 포스팅에서는 다중공선성이 무엇인지 그리고 어떻게 확인할 수 있는지 알아보려고 합니다. 회귀 모형을 적합할 때에는 여러 가지 문제를 고려해야 합니다. 오차의 분포가 정규분포를 따르는지, 오차가 관측치에 관계없이 항상 일정한지와 같은 오차 항의 가정과 관련된 문제가 있고요. 반응 변수와 중요한 연관관계를 갖는 변수가 모형에 다 포함되어 있는가에 대한 변수 선택 문제가 있지요. 또한 변수 간의 다중공선성이 회귀 분석에서 중요한 문제입니다. 여기서 다루는 내용은 다음과 같습니다. 1. 다중공선성이란? 2. 다중공선성이 왜 문제가 되는 걸까? 3. 다중공선성 확인 방법 4. 다중공선성이 존재할 경우 대책 1. 다중공선성이란? 다중 회귀 모형(Multiple regression)에서 .. 2020. 10. 5. [회귀 분석] 6. 변수 선택법(Variable Selection) with Python 안녕하세요~ 꽁냥이에요! 수많은 변수 중에서 관심의 대상이 되는 변수(반응 변수)를 잘 설명하는 변수를 골라서 회귀 모형을 구축한다면 좋은 모형이 될 수 있을 거예요. 이번 포스팅에서는 변수 선택 방법에 대해서 소개하고 파이썬을 이용하여 구현해보겠습니다. 여기서 다루는 내용은 다음과 같습니다. 1. 데이터 준비 2. 전진 선택법(Forward Selection) 3. 후진 소거법(Backward Elimination) 4. 단계별 선택법(Forward Stepwise Selection) 1. 데이터 준비 이번 포스팅에서 사용할 데이터를 다운받아주세요. 필요한 모듈을 임포트하고 데이터를 불러옵시다~!! import pandas as pd import statsmodels.api as sm import ma.. 2020. 10. 1. [Pandas] 12. 행 추가/삭제하기 안녕하세요~ 꽁냥이에요. 이번 포스팅은 Pandas에서 새로운 행 데이터를 데이터프레임에 추가, 삭제하는 방법에 대해서 알아보려고 합니다. 1. Pandas 행 추가하기 2. Pandas 행 삭제하기 1. Pandas 행 추가하기 먼저 예제용 데이터를 만들어줄게요. import pandas as pd data = { '이름' : ['꽁냥이','옹냥이'], '나이' : [22, 16], '키' : [183, 181] } df = pd.DataFrame(data) ## 데이터 꽁냥이는 아래의 데이터를 추가할 거예요. 아이린, 26, 160 Pandas에서는 행 삽입하는 여러가지 기능을 제공하고 있습니다. 여기서는 위의 행 데이터를 삽입하는 방법 3가지를 소개합니다. concat 이용하기 append 이용하기.. 2020. 9. 30. Matplotlib을 이용하여 레이더 차트(Radar chart) 그리기! 안녕하세요~ 꽁냥이에요. 보통 게임 속 캐릭터의 능력치를 나타낼 때 레이더 차트(Radar chart)를 많이 사용합니다. 여러분들도 많이 보셨을 거예요. 레이더 차트는 스파이더 차트(Spider chart)라고도 불리는데요. 각 변수에 대해서 가질 수 있는 값의 범위가 모두 같고 변수의 개수가 10개 내외인 경우에 레이더 차트(또는 스파이더 차트)를 사용하면 데이터의 특성을 직관적으로 볼 수 있지요. 이번 포스팅에서는 Matplotlib을 이용하여 레이더 차트를 그려보는 방법에 대해서 알아보겠습니다. 1. 데이터 준비 2. 레이더 차트 그리기 ※ 주의 사항 ※ 해당 내용은 matplotlib 버전 3.2.1 에서 잘 잘동되고 특정 버전 이후로는 잘되지 않는 것으로 확인되었습니다. 관련 내용은 후즈 테크.. 2020. 9. 28. [Pandas] 11. 데이터프레임 셀 스타일 변경하기 안녕하세요~ 꽁냥이에요. Pandas로 데이터 분석을 하다 보면 특정 위치 또는 특정 조건에 맞는 셀의 배경색을 바꿔서 알아보기 쉽게 할 필요가 있는데요. 이번 포스팅에서는 Pandas 데이터프레임에서 셀 배경색을 바꿔보는 법에 대해서 알아보겠습니다. 셀 배경색 바꾸기 이번 포스팅에서 사용할 데이터를 생성합니다. import pandas as pd import numpy as np np.random.seed(24) df = pd.DataFrame({'A': np.linspace(1, 10, 10)}) df = pd.concat([df, pd.DataFrame(np.random.randn(10, 4), columns=list('BCDE'))], axis=1) df.iloc[3, 3] = np.nan df... 2020. 9. 27. [회귀 분석] 5. 최적 모형 선택(All possible search 또는 Best subsets algorithm) with Python 안녕하세요~ 꽁냥이에요. 여러 개의 변수를 포함하는 데이터를 이용하여 선형 회귀 모형을 적합하는 상황을 생각해봅시다. 이 경우 어떤 변수 집합을 사용할지에 대한 문제가 발생합니다. 변수 집합을 생각하지 않고 모든 변수를 다 써도 되겠지만 1) 많은 변수를 포함하는 모형은 해석이 복잡해질 수 있으며 3) 과적합(Overfitting)의 문제, 4) 변수간 다중공선성(Multicolinearity) 존재 가능성 증가의 문제가 발생할 수 있습니다. 또한 적합한 모형을 계속 사용하기 위해서는 모형에 포함된 변수의 데이터를 유지관리해야 하는데 5) 변수가 많아질 수록 데이터 유지 및 관리가 어려워질 수 있습니다. 따라서 적절한 변수 집합을 선택하는 것이 중요하게 됩니다. 이번 포스팅에서는 최적 모형 선택 방법 중.. 2020. 9. 26. 산점도 행렬 그려보기 with Python 안녕하세요~ 꽁냥이에요. 산점도 행렬은 여러 개 연속형 변수들 간의 상관관계를 시각적으로 확인하고 싶을 때 사용합니다. 이번 포스팅에서는 산점도 행렬을 그려보는 2가지 방법에 대해서 소개합니다. 1. Seaborn을 이용하여 산점도 그리기 2. Pandas를 이용하여 산점도 그리기 1. Seaborn을 이용하여 산점도 그리기 먼저 Seaborn 모듈을 이용하여 산점도 행렬을 그려보겠습니다. 이번 포스팅에서 사용할 데이터를 다운 받아주세요. 데이터 설명 칼럼 설명 Blood_Clotting_Score 혈액 응고 테스트 점수 Prognostic_Index 예측 지수 Enzyme_Test 효소 기능 테스트 점수 Liver_Test 간 기능 테스트 점수 Age 연령 Gender 성별 0 = 남자, 1=여자 Al.. 2020. 9. 25. 이전 1 ··· 44 45 46 47 48 49 50 ··· 53 다음