일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 회귀분석
- matplotlib
- SQL
- 딥러닝
- scikit learn
- 자격증
- 이것이 코딩테스트다
- ML
- pytorch
- pandas
- Deep Learning Specialization
- 태블로
- 데이터분석
- 데이터 전처리
- r
- 파이썬
- 데이터 분석
- Google ML Bootcamp
- SQLD
- IRIS
- 머신러닝
- 시각화
- 이코테
- Python
- ADsP
- tableau
- 코딩테스트
- 데이터분석준전문가
- sklearn
- 통계
- Today
- Total
목록배깅 (3)
함께하는 데이터 분석

랜덤 포레스트(Random Forest) 배깅 방식을 적용한 의사결정 나무(Decision Tree)의 앙상블 따라서 사이킷런의 BaggingClassifier에 DecisionTreeClassifier를 넣어 만들거나 RandomForestClassifier를 사용 사이킷런 from sklearn.model_selection import train_test_split from sklearn.datasets import make_moons X, y = make_moons(n_samples=500, noise=0.3, random_state=42) X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42) 사이킷런의 moons 데이..

앙상블 학습 가장 좋은 모델 하나보다 비슷한 일련의 예측기로부터 예측을 수집하여 더 좋은 예측을 얻는 것 투표 기반 분류기 정확도가 80% 정도 되는 분류기를 여러 개 훈련시켰다고 가정 더 좋은 분류기를 만드는 매우 간단한 방법은 각 분류기의 예측을 모아 가장 많이 선택된 클래스를 예측 이렇게 다수결의 투표 즉, 통계적 최빈값으로 정해지는 분류기를 직접 투표(hard voting)이라 함 이 다수결 투표 분류기가 앙상블에 포함된 개별 분류기 중 가장 뛰어난 것보다 정확도가 높은 경우가 많음 각 분류기가 약한 학습기(weak learner)일지라도 많고 다양하면 앙상블은 강한 학습기(strong learner)가 될 수 있음 큰 수의 법칙 import numpy as np import pandas as p..

오늘은 머신러닝에서 자주 등장하는 앙상블 기법에 대해 알아볼게요! 우선 앙상블(Ensemble)이란 여러 개의 분류기를 생성하여 예측값을 종합하여 보다 정확한 예측값을 구하고 각각의 분류기를 사용했을 때의 단점을 보완해주는 기법입니다. 앙상블 기법에는 대표적으로 Voting, Bagging, Boosting이 있습니다. 이제 각각의 기법을 간단하게 살펴보겠습니다! Voting 보팅에는 Hard Voting과 Soft Voting이 있습니다. Hard Voting은 weak learner들의 예측값을 다수결의 원칙을 사용하여 나타내는 것입니다. 위의 사진을 보면 1을 예측한 분류기가 3개, 2를 예측한 분류기가 1개 이므로 다수결의 원칙에 따라 1로 예측하는 것입니다. 최빈값으로 결정한다고 할 수 있죠. ..