본문 바로가기

전체523

39. 정준 상관 분석(Canonical Correlation Analysis)에 대해서 알아보자 with Python 이번 포스팅에서는 다변량 분석 방법 중 하나인 정준 상관 분석(Canonical Correlation Analysis : CCA)에 대한 개념과 파이썬 구현 방법에 대해서 알아보고자 한다. - 목차 - 1. 정준 상관 분석이란? 2. 분석 절차 3. 파이썬 구현 4. 예제 5. 장단점 1. 정준 상관 분석이란? 1) 정의 정준 상관 분석(Canonical Correlation Analysis : CCA)이란 종속 변수 집단과 설명 변수 집단(또는 독립 변수 집단)의 상관 구조를 잘 설명하는 종속 변수 선형 결합과 설명 변수 선형 결합을 찾고 이러한 선형 결합들을 이용하여 두 변수 집단의 상관성을 효과적으로 분석하는 방법론을 말한다. 2) 파헤치기 앞에서 정의한 내용을 좀 더 자세하게 알아보자. a. CC.. 2023. 4. 23.
파이썬(Python) 텍스트 파일 쉽게 수정하기 (feat. fileinput) 파이썬(Python) 내장 모듈인 fileinput을 이용하면 텍스트 파일을 쉽게 수정할 수 있다. 이번 포스팅에서는 fileinput 모듈을 이용하여 텍스트 파일을 수정하는 방법을 알아보자. fileinput을 이용한 텍스트 파일 수정 먼저 아래 그림과 같은 텍스트 파일(test_01.txt)을 만들어 주었다. 이제 fileinput을 이용하여 텍스트 내용을 수정해 보자. 1) 인코딩 확인 먼저 chardet을 이용하여 텍스트 파일의 인코딩 형식을 추출한다. 왜냐하면 fileinput을 이용할 때 인코딩 에러가 나는 경우 잘못하면 텍스트 전체가 날아갈 수 있기 때문이다. 아래 코드는 텍스트 파일의 20줄까지 읽어서 인코딩 형식을 추측한다. import chardet text_file_path = './.. 2023. 4. 19.
[Numpy] 원-핫 인코딩(One-Hot Encoding) 간단하게 해보기 (feat. eye) 안녕하세요~ 꽁냥이에요. 데이터 전처리시 범주형 변수가 있는 경우 이를 One-Hot Encoding으로 변환하는 경우가 많은데요. Numpy에서 제공하는 eye 함수를 이용하면 One-Hot Encoding을 쉽게 할 수 있는데요. 이번 포스팅에서는 Numpy를 이용한 One-Hot Encoding 방법을 알아보고 나만의 One-Hot Encoder를 만들어보는 방법에 대해서 알아보겠습니다. 원-핫 인코딩(One-Hot Encoding) 구현 1) numpy를 이용한 One-Hot Encoding : eye 만약 범주가 0부터 시작하는 숫자로 되어 있는 경우 Numpy의 eye 함수를 이용하여 One-Hot Encoding을 할 수 있습니다. eye 함수는 숫자를 인자로 받고 해당 숫자만큼의 행을 갖는.. 2023. 4. 16.
파이썬(Python) 폴더와 파일 다루기 (feat. os, pathlib) 파이썬(Python)의 내장 모듈 os와 pathlib은 폴더(디렉토리)의 생성 및 삭제 그리고 파일의 존재 유무 등을 알 수 있는 기능을 제공한다. 폴더와 파일 삭제에 대한 내용은 여기에 포스팅해두었으니 이번 포스팅에서는 os와 pathlib에서 기존에 다루지 않았지만 많이 활용되는 기능에 대해서 알아보고자 한다. os, pathlib 사용법 os와 pathlib은 서로 공통된 기능을 많이 제공한다. 다만 os는 문자열을 통해 폴더(또는 파일)경로를 다루지만 pathlib은 Path 객체를 통해 경로를 다루는 차이점이 있다. 여기서 다루는 내용을 요약하면 다음과 같다. 이제 각각의 방법을 각각 알아보자. 1) 현재 폴더(디렉토리) 확인하기 현재 폴더(디렉토리)란 코드를 실행하는 파일을 포함하고 있는 폴.. 2023. 4. 14.
[Matplotlib] 눈금과 눈금 라벨 꾸미기 (feat. tick_params) 안녕하세요~ 꽁냥이입니다. 데이터 시각화를 하다 보면 좌표의 눈금과 눈금 라벨을 커스터마이징하고 싶을 때가 있습니다. 예를 들면 x축에 날짜가 들어가서 가로로 쓰면 오버랩이 발생하여 90도 회전한다거나 눈금 라벨을 크게 하는 것처럼 말이죠. Matplotlib에서 tick_params를 이용하면 눈금과 눈금 라벨을 변경할 수 있는데요. 이번 포스팅에서는 tick_params의 사용법을 알아보겠습니다. tick_params 사용법 tick_params는 눈금과 눈금 라벨을 꾸미는 기능을 제공하는데요. 여기서는 꽁냥이가 많이 사용하는 기능 위주로 소개하겠습니다. 1) 눈금 라벨 회전 : rotation or labelrotation tick_params에서 rotation 또는 labelrotation 인자.. 2023. 4. 12.
[Scikit-Learn] 25. One-Hot Encoding 변환하기 (feat. OneHotEncoder) Scikit-Learn에서는 OneHotEncoder 클래스를 이용하여 범주형 변수를 One-Hot Encoding으로 변환할 수 있다. 이번 포스팅에서는 OneHotEncoder을 이용하여 One-Hot Encoding을 수행하는 방법을 알아본다. OneHotEncoder 사용법 여기서는 붓꽃 데이터의 붓꽃 범주를 One-Hot Encoding으로 변환해보고자 한다. OneHotEncoder는 범주형 변수가 반드시 2차원 배열로 되어있어야 한다. import numpy as np from sklearn.preprocessing import OneHotEncoder from sklearn.datasets import load_iris iris = load_iris() category = np.array(.. 2023. 4. 9.
[Scikit-Learn] 24. Partial Least Square Regression 모형 적합하기 (feat. PLSRegression) Scikit-Learn에서는 PLSRegression 클래스를 이용하여 부분 최소 제곱 회귀(Partial Least Square Regression : PLSR) 모형을 학습할 수 있다. 이번 포스팅에서는 PLSRegression 클래스의 기본적인 사용법에 대해서 알아본다. 부분 최소 제곱 회귀(Partial Least Square Regression : PLSR) 모형에 대한 개념은 아래 포스팅을 참고하면 된다. 38. 부분 최소 제곱 회귀(Partial Least Square Regression : PLSR)에 대해서 알아보자 with Python 38. 부분 최소 제곱 회귀(Partial Least Square Regression : PLSR)에 대해서 알아보자 with Python 이번 포스팅에.. 2023. 4. 8.
38. 부분 최소 제곱 회귀(Partial Least Square Regression : PLSR)에 대해서 알아보자 with Python 이번 포스팅에서는 부분 최소 제곱 회귀(Partial Least Square Regression : PLSR)에 대한 개념과 파이썬 구현 방법을 알아보고자 한다. - 목차 - 1. 부분 최소 제곱 회귀(Partial Least Square Regression : PLSR)란? 2. 파이썬 구현 3. 예제 4. 장단점 PLSR을 이해하기 위해선 주성분 분석에 대한 이해가 필요하다. 아래 포스팅에 주성분 분석에 대한 내용을 정리해 두었으니 참고하면 된다. 37. 주성분 분석(Principal Component Analysis : PCA)에 대해서 알아보자 with Python 37. 주성분 분석(Principal Component Analysis : PCA)에 대해서 알아보자 with Python 이번 포스.. 2023. 4. 8.
[Scikit-Learn] 23. 주성분 분석(Principal Component Analysis) (feat. PCA) 주성분 분석(Principal Component Analysis)은 예측 모형에 사용될 변수를 새롭게 만들거나 차원 축소를 통한 데이터 요약을 위해 많이 사용된다. Scikit-Learn(sklearn)에서는 PCA 객체를 이용하여 주성분 분석을 할 수 있다. 이번 포스팅에서는 PCA에 대한 사용법을 알아보고자 한다. 주성분 분석(Principal Component Analysis)에 대한 개념은 아래 포스팅에 정리해 두었으니 참고하면 된다. 37. 주성분 분석(Principal Component Analysis : PCA)에 대해서 알아보자 with Python 37. 주성분 분석(Principal Component Analysis : PCA)에 대해서 알아보자 with Python 이번 포스팅에서는 .. 2023. 4. 2.
37. 주성분 분석(Principal Component Analysis : PCA)에 대해서 알아보자 with Python 이번 포스팅에서는 주성분 분석(Principal Component Analysis : PCA)에 대한 개념과 파이썬(Python)을 이용하여 구현하는 방법에 대해서 알아본다. - 목차 - 1. 주성분 분석이란? 2. 주성분 구하기 3. 파이썬 구현 4. 예제 5. 장단점 주성분 분석을 이해하기 위해선 고유값 분해와 특이값 분해에 대한 내용을 알아야 한다. 아래 포스팅에 해당 내용을 정리했으니 참고하면 된다. 고유값과 고유 벡터 그리고 고유값 분해(Eigen Decomposition)에 대해서 알아보자 (feat. Numpy) 고유값과 고유 벡터 그리고 고유값 분해(Eigen Decomposition)에 대해서 알아보자 (feat. Numpy) 이번 포스팅에서는 고유값과 고유 벡터에 대해서 간단히 알아본 .. 2023. 4. 1.

맨 위로