일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 코딩테스트
- scikit learn
- 데이터 분석
- ML
- SQLD
- 머신러닝
- 데이터분석준전문가
- 파이썬
- 이것이 코딩테스트다
- ADsP
- pytorch
- Deep Learning Specialization
- SQL
- tableau
- 자격증
- pandas
- 시각화
- r
- Python
- sklearn
- Google ML Bootcamp
- matplotlib
- 태블로
- 통계
- 데이터분석
- 회귀분석
- 데이터 전처리
- 이코테
- 딥러닝
- IRIS
- Today
- Total
목록언더샘플링 (2)
함께하는 데이터 분석
오늘은 이어서 데이터 불균형 해소를 간단한 R코드를 통해 알아보겠습니다. 2022.03.20 - [학회 기록/학회 세션] - 데이터 불균형 해소 데이터 불균형 해소 안녕하세요! 오늘은 데이터가 불균형이어서 우리가 모델링을 할 때 유의미한 결과값을 얻을 수 없을 때 어떻게 대처해야하는지를 알아보겠습니다. 예를들면 종양의 악성유무를 살펴보면 100명 tnqkrdmssjan.tistory.com 이전 발행 글은 위를 참고하시면 됩니다. 기본 데이터 # 문과(0) 이과(1) set.seed(0320) y = c(rep(0, 15), rep(1, 50)) y = as.factor(y) math = c(rnorm(15, 50, 15), rnorm(50, 70, 12)) eng = c(rnorm(15, 70, 12)..
안녕하세요! 오늘은 데이터가 불균형이어서 우리가 모델링을 할 때 유의미한 결과값을 얻을 수 없을 때 어떻게 대처해야 하는지를 알아보겠습니다. 예를 들면 종양의 악성 유무를 살펴보면 100명 중 1명이 악성이라고 할 때 어떻게 보면 굉장히 적은 수치이지만 1명의 경우 심각한 상황을 초래하기 때문에 정확히 예측하는 것이 중요하죠. 이때 99명이 종양이 없고 1명이 악성이라 하면 나머지 많은 데이터를 예측할 때 종양이 없다고 예측하면 99%의 정확도를 갖는 상황이 발생할 수 있습니다. 이렇게 차이가 나는 데이터라고 가정하면 어떠한 모형이냐에 따라 다르겠지만 보라색 부분의 y = 1인 값들은 아마도 0으로 분류될 확률이 높을 것입니다. 따라서 우리는 이러한 불균형을 해소하기 위한 2가지 방법을 알아보려 합니다...