일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- ADsP
- sklearn
- pandas
- 회귀분석
- 데이터 전처리
- 태블로
- scikit learn
- 머신러닝
- ML
- matplotlib
- 데이터분석
- 이코테
- 통계
- 코딩테스트
- 시각화
- 데이터분석준전문가
- IRIS
- r
- pytorch
- Python
- SQLD
- SQL
- 자격증
- 데이터 분석
- Google ML Bootcamp
- Deep Learning Specialization
- tableau
- 이것이 코딩테스트다
- 파이썬
- 딥러닝
- Today
- Total
목록label encoding (2)
함께하는 데이터 분석

CatBoost CatBoost는 많은 범주형 변수로 이루어진 데이터셋에서 성능이 매우 우수하여 categorical boost라고도 불립니다 특히 CatBoost는 다른 boosting 기반 알고리즘과 달리 categorical feature를 특별하게 처리합니다 One-Hot Encoding이나 Label Encoding 등 인코딩 과정 없이 그대로 모델에 적합시킬 수 있습니다 또 categorical feature를 그대로 모델에 넣어주면 Ordered Target Encoding을 진행합니다 Target Encoding에서 발생할 수 있는 data leakage 문제를 해결하기 위해 과거의 데이터를 이용하여 현재의 데이터를 인코딩하는 원리입니다 부스팅을 할 때 일반적인 Boosting이 아닌 Or..

안녕하세요. 머신러닝을 돌리기 전 전처리 작업 중 하나인 인코딩을 살펴보겠습니다. 머신러닝 알고리즘은 대부분 문자형 데이터를 이해하지 못하므로 수치형 데이터로 인코딩하는 작업은 거의 필수적이라고 할 수 있습니다. 그래서 오늘은 사이킷런의 대표적인 두 가지 인코딩 방법 중 Label Encoding을 알아보겠습니다. Label Encoding Label Encoding은 어떤 피쳐의 n개의 범주형 데이터를 0 ~ n-1의 수치형 데이터로 변환합니다. 이때 이 변환 값이 수치적 차이를 나타내는 것은 아닙니다. 따라서 선형 회귀 등의 알고리즘에는 적용하는 것은 적합하지 않고 트리 계열의 알고리즘에는 적용해도 괜찮습니다. 이제 Python을 통해 Label Encoding을 살펴보겠습니다. 라이브러리 불러오기 ..