함께하는 데이터 분석

[데이터 마이닝] 로지스틱 단순회귀모형 본문

통계학과 수업 기록/데이터 마이닝

[데이터 마이닝] 로지스틱 단순회귀모형

JEONGHEON 2022. 3. 24. 16:11

안녕하세요!

 

오늘은 로지스틱 단순 회귀모형에 대해 알아보겠습니다.

 

위의 사진에서 주황색 그래프가 로지스틱 회귀 곡선입니다.

 

로지스틱 회귀모형은 설명변수인 x는 연속형이든 범주형이든 상관없지만

 

반응변수인 y는 보통 범주가 2개인 0, 1을 나타냅니다.

 

그럼 이제 로지스틱 단순 회귀모형을 공부할 때 필요한 기본개념을 설명하겠습니다.

 

 

오즈(Odds) : 성공확률이 실패 확률에 비해 몇 배 더 높은가

오즈(odds)를 상대적 가능성이라고도 표현합니다.

 

오즈의 범위는 0 < odds < ∞ 입니다.

 

 

로짓 변환(logit transform) : 오즈에 로그를 취해서 p의 범위가 [0,1] 일 때 (-∞,+∞)로 변환

y=a+bx에서 로지스틱 회귀모형에서 반응변수는 [0,1]을 가져야 하는데

 

설명변수에 따라 0보다 작은 값을 가질 수도 1보다 큰 값을 가질 수도 있습니다.

 

따라서 로지스틱 회귀모형에서는 반응변수에 대한 로짓 변환을 하는 것입니다.

 

 

시그모이드 함수(Sigmoid)

위의 로짓변환을 한 식에서 p로 식을 정리하면 위와 같은 시그모이드 함수가 나타납니다.

 

즉, a+bx에 어떤 값이 들어와도 [0,1]의 값을 나타내죠.

 

 

오즈비(Odds Ratio) : X가 1 단위 증가하는데 따른 odds ratio

단순 선형 회귀 모형에서는 x가 1 단위 증가하는데 따른

 

y의 증가는 베타였습니다.

 

단순 로지스틱 회귀모형에서는 e^b입니다.

 

따라서 오즈비 > 1이라면 독립변수가 종속변수의 양의 방향으로 영향을 미치는 것을 알 수 있고

 

오즈비 < 1이라면 독립변수가 종속변수의 음의 방향으로 영향을 미친다고 할 수 있습니다.


위의 데이터를 살펴보면 Pollen 즉,  꽃가루 알레르기가 반응변수인 것을 알 수 있습니다.

 

그 옆 열인 Pollen 0/1이 Pollen 값에 따라 0과 1로 분류한 로지스틱 회귀모형에 해당하는

 

반응변수라고 할 수 있겠습니다.

 

위의 한정적인 데이터를 살펴보면 Pollen > 1이면 1, Pollen = 0이면 0인 것으로 보입니다.

 

이렇게 처리를 하면 0에 비해 1이 너무 많은 문제점이 발생합니다.

 

이를 불균형이라고 하고 오버샘플링을 해준다든지, 꽃가루 수치가 피해를 입힐만한 수치를 기준으로

 

0과 1의 범위를 나누는 과정이 필요하다고 할 수 있겠습니다.


로지스틱 모형의 장점

  • 선형 회귀모형과의 유사성으로 인하여 사용이 쉽다
  • 회귀계수와 오즈비를 이용하여 해석이 가능하다
  • 작은 표본에서는 로지스틱 회귀가 진짜 모델이 아니어도 잘 작동한다

로지스틱 모형의 단점

  • 변수 선택을 통하여 올바른 설명변수가 필요하다
  • 결측값을 처리하기 힘들다
  • 이상값에 민감하다