함께하는 데이터 분석

[Classification] LDA(선형 판별분석) 본문

학회 세션/비어플

[Classification] LDA(선형 판별분석)

JEONGHEON 2022. 3. 26. 16:27

반응변수가 범주형인 경우 분류(Classification)를 사용하고

 

분류기(Classifiers)에 여러 가지가 있지만

 

저번 시간에 간략하게 다룬 로지스틱 회귀분석에 이은

 

선형 판별분석 LDA에 대해 알아보겠습니다.

 

간단한 이론정도에 불과하지만 로지스틱 회귀분석을 살펴보려면

2022.03.24 - [통계학과 수업 기록/데이터 마이닝] - [데이터 마이닝] 로지스틱 단순회귀모형

 

[데이터 마이닝] 로지스틱 단순회귀모형

안녕하세요! 오늘은 로지스틱 단순 회귀모형에 대해 알아보겠습니다. 위의 사진에서 주황색 그래프가 로지스틱 회귀 곡선입니다. 로지스틱 회귀모형은 설명변수인 x는 연속형이든 범주형이든

tnqkrdmssjan.tistory.com

여기로 이동해주시면 감사하겠습니다.

 

분류를 위한 베이즈 정리 사용

Y : 범주형 반응변수, k개의 순서가 없고 다른 값을 가집니다.

π_k : 사전확률 - 무작위로 선택된 관측치가 k번째 클래스에서 나올 확률

f_k(X) : k번째 클래스에 속하는 관측치에 대한 X의 밀도함수

Pr(Y=k | X=x) : 사후확률 - 관측치에 대한 주어진 설명변수 값에 대해 그 관측치가 k번째 클래스에 속할 확률

 

하지만 f_k(X)를 추정하기 쉽지 않습니다.

따라서 LDA에서는 f_k(X)는 정규분포를 따른다고 가정합니다(베이즈 분류기에 근접하는 분류기)

 

 

설명변수가 1개일 때

 

 

설명변수가 1개 이상일 때(다중 선형 판별분석)

 

로지스틱 회귀가 아닌 LDA를 사용해야 할 때

  1. 클래스들이 잘 분류될 때 로지스틱 회귀분석에서 모수인 β_1이 불안정(β_1이 무한대로 근사)
  2. n의 개수가 작고 각 클래스의 X의 분포가 정규분포에 근사하면 로지스틱 회귀보다 LDA가 안정적
  3. Y > 3 일 때 

 

즉, 공통 공분산 행렬을 갖는 정규분포일 때는 LDA

 

정규분포 가정을 만족하지 않을 때는 로지스틱 회귀모형을 사용하는 것이

 

일반적으로 좋다고 할 수 있습니다.


Copyright

 

- 비어플 빅데이터 학회

'학회 세션 > 비어플' 카테고리의 다른 글

규제 회귀 모델  (0) 2022.04.02
[R] 로지스틱 회귀 & LDA  (0) 2022.03.26
[Python] IMAGE(2D data) AUGMENTATION  (0) 2022.03.24
[R] 데이터 불균형 해소  (0) 2022.03.20
데이터 불균형 해소  (0) 2022.03.20