일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 자격증
- r
- IRIS
- matplotlib
- Python
- 이것이 코딩테스트다
- 데이터분석준전문가
- 코딩테스트
- 데이터 분석
- Deep Learning Specialization
- 회귀분석
- 시각화
- 통계
- 이코테
- 파이썬
- sklearn
- scikit learn
- pandas
- 머신러닝
- SQL
- 딥러닝
- tableau
- pytorch
- Google ML Bootcamp
- 태블로
- SQLD
- ADsP
- 데이터 전처리
- 데이터분석
- ML
- Today
- Total
목록One-Hot Encoding (3)
함께하는 데이터 분석

CatBoost CatBoost는 많은 범주형 변수로 이루어진 데이터셋에서 성능이 매우 우수하여 categorical boost라고도 불립니다 특히 CatBoost는 다른 boosting 기반 알고리즘과 달리 categorical feature를 특별하게 처리합니다 One-Hot Encoding이나 Label Encoding 등 인코딩 과정 없이 그대로 모델에 적합시킬 수 있습니다 또 categorical feature를 그대로 모델에 넣어주면 Ordered Target Encoding을 진행합니다 Target Encoding에서 발생할 수 있는 data leakage 문제를 해결하기 위해 과거의 데이터를 이용하여 현재의 데이터를 인코딩하는 원리입니다 부스팅을 할 때 일반적인 Boosting이 아닌 Or..

라이브러리 불러오기 import pandas as pd import seaborn as sns Seaborn을 활용하여 데이터 불러오기 mpg = sns.load_dataset('mpg') mpg.head() mpg=mpg.drop(columns='name') mpg.head() mpg['origin'].value_counts() >>> usa 249 japan 79 europe 70 Name: origin, dtype: int64 usa, japan, europe 3개의 값으로 origin 칼럼이 구성되어있음 get_dummies() pd.get_dummies(mpg) get_dummies()를 사용하여 간단하게 One-Hot Encoding을 한 것을 확인할 수 있음 결측 값이 존재한다면 dummy_..

안녕하세요. 머신러닝을 돌리기 전 전처리 작업 중 하나인 인코딩에 대해 살펴볼게요. 전 포스트에서 말씀드렸기에 간단하게 설명한다면 인코딩은 문자형 변수를 수치형 변수로 변환해주는 것입니다. 저번 포스팅에서는 Label Encoding을 알아봤고 이번에는 One-Hot Encoding을 살펴볼게요. One-Hot Encoding 머신러닝을 공부하신 분들이라면 한 번씩은 들어보셨을 One-Hot Encoding입니다. One-Hot Encoding은 말 그대로 하나만 Hot하고 나머지는 Cold 한다는 뜻입니다. 새로운 칼럼을 추가하여 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시합니다. 이제 Python을 통해 One-Hot Encoding을 진행해보겠습니다. 라이브러리 불러오기 import ..