Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- 머신러닝
- scikit learn
- 회귀분석
- SQLD
- 통계
- 파이썬
- 이것이 코딩테스트다
- tableau
- 자격증
- 데이터 분석
- 시각화
- 딥러닝
- 데이터 전처리
- pytorch
- Python
- 데이터분석
- 태블로
- SQL
- Deep Learning Specialization
- sklearn
- 데이터분석준전문가
- matplotlib
- r
- 코딩테스트
- pandas
- 이코테
- Google ML Bootcamp
- ML
- ADsP
- IRIS
Archives
- Today
- Total
함께하는 데이터 분석
[Classification] LDA(선형 판별분석) 본문
반응변수가 범주형인 경우 분류(Classification)를 사용하고
분류기(Classifiers)에 여러 가지가 있지만
저번 시간에 간략하게 다룬 로지스틱 회귀분석에 이은
선형 판별분석 LDA에 대해 알아보겠습니다.
간단한 이론정도에 불과하지만 로지스틱 회귀분석을 살펴보려면
2022.03.24 - [통계학과 수업 기록/데이터 마이닝] - [데이터 마이닝] 로지스틱 단순회귀모형
여기로 이동해주시면 감사하겠습니다.
분류를 위한 베이즈 정리 사용
Y : 범주형 반응변수, k개의 순서가 없고 다른 값을 가집니다.
π_k : 사전확률 - 무작위로 선택된 관측치가 k번째 클래스에서 나올 확률
f_k(X) : k번째 클래스에 속하는 관측치에 대한 X의 밀도함수
Pr(Y=k | X=x) : 사후확률 - 관측치에 대한 주어진 설명변수 값에 대해 그 관측치가 k번째 클래스에 속할 확률
하지만 f_k(X)를 추정하기 쉽지 않습니다.
따라서 LDA에서는 f_k(X)는 정규분포를 따른다고 가정합니다(베이즈 분류기에 근접하는 분류기)
설명변수가 1개일 때
설명변수가 1개 이상일 때(다중 선형 판별분석)
로지스틱 회귀가 아닌 LDA를 사용해야 할 때
- 클래스들이 잘 분류될 때 로지스틱 회귀분석에서 모수인 β_1이 불안정(β_1이 무한대로 근사)
- n의 개수가 작고 각 클래스의 X의 분포가 정규분포에 근사하면 로지스틱 회귀보다 LDA가 안정적
- Y > 3 일 때
즉, 공통 공분산 행렬을 갖는 정규분포일 때는 LDA
정규분포 가정을 만족하지 않을 때는 로지스틱 회귀모형을 사용하는 것이
일반적으로 좋다고 할 수 있습니다.
Copyright
- 비어플 빅데이터 학회
'학회 세션 > 비어플' 카테고리의 다른 글
규제 회귀 모델 (0) | 2022.04.02 |
---|---|
[R] 로지스틱 회귀 & LDA (0) | 2022.03.26 |
[Python] IMAGE(2D data) AUGMENTATION (0) | 2022.03.24 |
[R] 데이터 불균형 해소 (0) | 2022.03.20 |
데이터 불균형 해소 (0) | 2022.03.20 |