일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- sklearn
- 자격증
- 데이터분석
- Deep Learning Specialization
- Python
- 데이터 전처리
- SQL
- 코딩테스트
- 회귀분석
- 데이터분석준전문가
- SQLD
- tableau
- pytorch
- r
- ADsP
- 파이썬
- 데이터 분석
- ML
- Google ML Bootcamp
- 딥러닝
- pandas
- 머신러닝
- IRIS
- 시각화
- 통계
- 태블로
- 이것이 코딩테스트다
- scikit learn
- matplotlib
- 이코테
- Today
- Total
목록ML (8)
함께하는 데이터 분석
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bWG1yG/btrWQbRPHrA/PiSE7kQF9TZrDpxGKmE1DK/img.png)
XGBoost XGBoost는 "eXtreme Gradient Boosting"에서 따온 이름입니다 XGBoost는 Gradient Boosting 방법 중 하나로 많은 장점이 존재합니다 장점 효율성, 유연성이 뛰어남 overfitting 방지 가능(과적합 규제) 신경망 모델에 비해 시각화와 직관적인 이해가 쉬움 cross validation을 지원 높은 성능을 나타내어 kaggle, dacon에 많이 사용 early stopping(조기종료) 기능이 있음 missing value를 내부적으로 처리 단점 하이퍼파라미터 수가 너무 많음 XGBoost는 앞선 LightGBM 포스팅에서 본 것과 같이 level-wise로 수평적으로 확장됩니다 Python 실습 import numpy as np import w..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/ddDX6N/btrWQXehi3l/kwZE5cjvCIOa8JvcclutSk/img.png)
LightGBM LightGBM은 Gradient Boosting Machine에서 Light를 추가한 것입니다 Light가 붙은 만큼 속도도 빠르고 큰 사이즈의 데이터를 다룰 수 있고 실행시킬 때 적은 메모리를 차지합니다 추가로 LightGBM은 GPU 학습을 지원하고 결과의 정확도에 초점을 맞추므로 인기 있는 모델입니다 LightGBM은 기본적으로 GBM의 학습방식의 틀린 부분에 가중치를 주며 진행하는 방식입니다 GBM에 대한 소개는 이전 포스팅을 참고하세요 2023.01.15 - [데이터분석 공부/ML | DL] - [ML] Gradient Boosting Machine [ML] Gradient Boosting Machine Gradient Boosting Machine Gradient Boosti..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/erMFW5/btrBZx87rGw/U8MqwPXcgy2PPYBpOJ9Iy0/img.png)
안녕하세요. 머신러닝을 돌리기 전 전처리 작업 중 하나인 인코딩에 대해 살펴볼게요. 전 포스트에서 말씀드렸기에 간단하게 설명한다면 인코딩은 문자형 변수를 수치형 변수로 변환해주는 것입니다. 저번 포스팅에서는 Label Encoding을 알아봤고 이번에는 One-Hot Encoding을 살펴볼게요. One-Hot Encoding 머신러닝을 공부하신 분들이라면 한 번씩은 들어보셨을 One-Hot Encoding입니다. One-Hot Encoding은 말 그대로 하나만 Hot하고 나머지는 Cold 한다는 뜻입니다. 새로운 칼럼을 추가하여 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시합니다. 이제 Python을 통해 One-Hot Encoding을 진행해보겠습니다. 라이브러리 불러오기 import ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/6YEXO/btrB2rmvi3i/EzSyjYl7DpA1aDks0GTgRk/img.png)
안녕하세요. 머신러닝을 돌리기 전 전처리 작업 중 하나인 인코딩을 살펴보겠습니다. 머신러닝 알고리즘은 대부분 문자형 데이터를 이해하지 못하므로 수치형 데이터로 인코딩하는 작업은 거의 필수적이라고 할 수 있습니다. 그래서 오늘은 사이킷런의 대표적인 두 가지 인코딩 방법 중 Label Encoding을 알아보겠습니다. Label Encoding Label Encoding은 어떤 피쳐의 n개의 범주형 데이터를 0 ~ n-1의 수치형 데이터로 변환합니다. 이때 이 변환 값이 수치적 차이를 나타내는 것은 아닙니다. 따라서 선형 회귀 등의 알고리즘에는 적용하는 것은 적합하지 않고 트리 계열의 알고리즘에는 적용해도 괜찮습니다. 이제 Python을 통해 Label Encoding을 살펴보겠습니다. 라이브러리 불러오기 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/b031nc/btrBKpcRtQZ/XHRGVPPllGEyY4kM7Olhw0/img.png)
오늘은 마지막 스케일링인 Robust Scaling에 대해 알아보겠습니다. Robust Scaling Robust Scaling은 데이터 값에서 데이터의 중위수를 뺀 것을 IQR인 Q3 - Q1으로 나눈 것입니다. 통계를 배우다 보면 중위수가 이상치에 강하다는 특징을 배울 것입니다. 이 Robust Scaling 역시 이상치의 영향을 최소화하는 스케일링입니다. Standard Scaling에 비해 넓은 범위로 스케일링되는 특징이 있습니다. 이제 Python을 통해 Robust Scaling을 진행하겠습니다. 라이브러리 불러오기 import numpy as np import pandas as pd import seaborn as sns import sklearn 데이터 불러오기 및 정제하기 mpg = sn..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/XqhdX/btrBNlfQoQZ/w6YRCeDkQtkJSMaHeRpXrK/img.png)
안녕하세요. 오늘은 Scaling 중 하나인 MaxAbs Scaling을 살펴보겠습니다. 바로 시작해볼게요! MaxAbs Scaling MaxAbs Scaling은 데이터의 최대 절댓값이 1, 0이 0으로 스케일링됩니다. 즉, 절댓값이 0에서 1 사이로 매핑되므로 결과적으로 -1에서 1 사이로 스케일링됩니다. Standard Scaling, Min-Max Scaling과 마찬가지로 이상치에 민감하며 앞 2개의 Scaling에 비해 상대적으로 덜 사용됩니다. 이제 Python의 Scikit Learn을 통해 스케일링을 해보겠습니다. 라이브러리 불러오기 import numpy as np import pandas as pd import seaborn as sns import sklearn 데이터 불러오기 및 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/dOaokb/btrBIxhUcqH/KKipkkqahDyM8qcHbmkQ6K/img.png)
저번 시간에 본 Standard Scaling에 이어서 오늘은 Min-Max Scaling을 공부해보겠습니다. 스케일링을 하는 이유는 앞선 포스팅인 2022.05.10 - [데이터분석 공부/ML | DL] - [Scikit Learn] Standard Scaling [Scikit Learn] Standard Scaling 안녕하세요. 오늘은 Numerical feature를 Scaling을 해보겠습니다. Scaling의 여러 가지 방법 중 Standard Scaling을 알아보겠습니다. 우선 Scaling을 하는 이유를 말씀드리겠습니다. 예를 들어 머신러닝을 진행 tnqkrdmssjan.tistory.com 이 포스팅을 참고해주세요! 이제 본격적으로 Min-Max Scaling을 알아보겠습니다. Min-..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/diBpve/btrBHmHxOYS/IW9OIwyK1EEiiPHwhmbap0/img.png)
안녕하세요. 오늘은 Numerical feature를 Scaling을 해보겠습니다. Scaling의 여러 가지 방법 중 Standard Scaling을 알아보겠습니다. 우선 Scaling을 하는 이유를 말씀드리겠습니다. 예를 들어 머신러닝을 진행할 때 종속변수 Y가 토익점수이고 반응 변수 X1은 하루에 영어를 공부하는 시간(단위 : 분) 반응 변수 X2는 모의토익에 응시한 횟수라고 생각해볼게요. 그렇다면 토익 시험이 얼마 남지 않았을 때 하루 6시간을 공부했다고 하면 X1의 값은 360이 되고, 모의토익의 응시 횟수가 10번 정도라고 하면 값의 차이가 너무 크게 나오는 것을 볼 수 있습니다. 이럴 때 반응 변수인 토익점수는 X1인 영어를 공부한 시간에 대해 영향을 크게 받습니다. 반대로 말하면 X2인 모..