함께하는 데이터 분석

[회귀분석] SSE와 결정계수 R^2 본문

통계학과 수업 기록/회귀분석

[회귀분석] SSE와 결정계수 R^2

JEONGHEON 2022. 4. 3. 17:10

오늘은 SSE와 결정계수(R^2)에 대해 알아보겠습니다.

 

저번 시간에 SSE에 대해서 알아봤는데

 

오늘은 2가지 model에 대해 SSE를 알아보겠습니다.

 

 

M_0 model의 SSE

m_0 model은 독립변수인 x_i가 없는 모델입니다.

 

빨간색 x표시가 observation인데 Y축 위에 있는 것을 볼 수 있죠.

 

이때 SSE는 위와 같습니다.

 

SSE는 Sum of Square Estimation의 약자이죠.

 

 

M_1 model의 SSE

M_1 model이 우리가 알고 있는

 

simple linear regression입니다.

 

M_1의 SSE가 우리가 말하는 일반적인 SSE입니다.

 

 

M_0과 M_1 model의 SSE비교

observarion에서 회귀선으로 내린 선분의 제곱한 값이 SSE인 것은 다들 알고 계실 겁니다.

 

첫 번째 사진에서는 잘 안보이겠지만 두 사진의 파란색 선분의 길이의 제곱합이 어느 모델에서 더 작을까요?

 

두 번째 모델인 M_1 model일 것입니다.

 

x_i라는 독립변수가 종속변수를 설명해주기 때문에

 

입실론(오차)의 값이 설명해주는 만큼 줄어들게 되는 것이죠.

 

그렇다면 항상 M_1 모델의 SSE값이 M_0 모델의 SSE값보다 작을까요?

 

정답은 작거나 같습니다.

 

그렇다면 언제 같아지는 값이 나오는지 알아보겠습니다.

이렇게 경향을 따르지 않는다면

 

저 점들을 Y축 위로 끌어가도 입실론(오차)의 길이는

 

똑같게 됩니다.

 

만약 이렇게 값들이 그려진다면

 

우리는 일반적으로 더 편한 M_0 모델을 사용합니다.

 

 

SSE, SSR, SST

SSE는 우리가 알고 있고

 

SSR은 Sum of Square Regression의 약자이고

 

SST는 Sum of Square Total의 약자입니다.

 

SSE와 SSR, SST를 이용하여 결정계수인 R^2를 구하게 됩니다.

 

SST는 SSE + SSR이라고 하는데 왜 그렇게 되는지 보여드리겠습니다.

 

 식을 변형하면 위와 같은 결과를 얻을 수 있죠.

 

이 결과는 simple linear regression 뿐만 아니라

 

multiple linear regression에서도 성립합니다.

 

저기서 0으로 날라가는 것이 이해가 잘 안 되신다면

 

다음의 사진을 보시면 이해가 쉬울 것 같습니다.

직각으로 이루어져 있어 외적이 0이기 때문입니다.

 

 

결정계수 R^2

결정계수 R^2은 SSR/SST로 표현할 수 있습니다.

 

이때 simple linear regression에서는 X와 Y의 상관계수의 제곱이 결정계수와 같습니다.

 

하지만 multiple linear regression에서는 해당되지 않습니다.

 

그럼 이번에는 multiple linear regression에서 결정계수를 살펴보겠습니다.

 

multiple linear regression에서는 

 

1-(SSE/SST)가 조정결정계수입니다.

 

회귀선의 특성상 독립변수의 개수가 늘어나면

 

설명이 약한 변수가 들어와도 결정계수 값이 증가합니다.

 

이러한 경우를 고려하여 조정결정계수를 제공하는데

 

이 값이 1-(SSE/SST)입니다.