함께하는 데이터 분석

[회귀분석] 선형회귀분석 개요② 본문

통계학과 수업 기록/회귀분석

[회귀분석] 선형회귀분석 개요②

JEONGHEON 2022. 3. 12. 17:55

오늘은 이어서 회귀분석 때 사용할 가설검정 과정, CLT, CI에 대해 알아보겠습니다.

 

위의 식에서 모수 B1의 값을 구했을 때 제대로 구했는지 가설검정을 해야 합니다.

귀무가설을 베타1 = 0

 

대립 가설을 베타1 =/ 0이라고 놓습니다.

 

만약 베타1이 0이면 엄마의 키 변수가 딸의 키에 영향을 미치지 않으므로

 

위의 회귀식은 의미가 없어지게 되니까요.


그렇다면 가설검정의 단계를 알아볼까요?

첫 번째로 귀무가설과 대립가설을 설정하고

 

두 번째로 유의수준 알파를 정합니다.

 

이후에 분포를 찾고 p-value값을 계산합니다.

 

마지막으로 p-value값과 알파 값을 비교하여

 

p-value값이 알파 값보다 작다면 귀무가설을 기각하고

 

크다면 귀무가설을 기각하지 못합니다.

 

여기서 중요한 것은 귀무가설을 채택한다고 표현하는 것이 아니라

 

기각하지 못한다 혹은 기각할만한 충분한 근거가 없다고 하는 것입니다.


이번에는 CLT(중심극한정리)에 대해 알아볼까요?

X(모집단)이 정규분포를 따르지 않아도 n(표본의 수)이 충분히 크다면 

 

표본 평균의 분포는 정규분포를 따른다는 것입니다.

 

일반적으로 n이 30 이상이면 충분히 크다고 하는데

 

항상 그렇다는 것은 아니고 경우에 따라 다릅니다.

 

하지만 위의 표현에서 부족한 부분이 만약 n이 무한대로 간다면 분산이 0이 되므로

 

분포가 정규분포를 따르지 못합니다. 따라서

위의 표준정규분포 표현을 사용해야 정확합니다.

 

이때 문제인 부분이 우리가 모르는 모수가 평균뿐 아니라

 

표준편차인 시그마가 있죠. 이때

모표준편차 대신 표본표준편차를 사용하는데 

 

이때 df(자유도)가 n-1인 t분포를 따릅니다.

 

증명은 복잡하므로 생략하겠습니다.

 

만약 n이 충분히 크다면 평균이 0, 분산이 1인 표준정규분포를 따릅니다.

자유도에 따른 t분포


이번에는 CI(Confidende Interval, 신뢰구간)에 대해

 

사람들이 간혹 잘못 알고있는 부분을 살펴보겠습니다.

 

신뢰구간은 표본집단에서 얻은 통계량을 이용하여

 

모집단의 모수가 놓여있으리라고 생각하는 구간을 말합니다.

 

이때 사람들이 잘못알고있는 부분은 95% 신뢰구간을 예로 들면

 

하나의 신뢰구간이 모평균을 포함할 확률이 95%라고 알고 계시는 분들이 많습니다.

 

이것은 틀린 말입니다. 

 

하나의 신뢰구간에서 모평균을 포함할 확률은 0 또는 1입니다.

 

포함하거나 포함하지 않는 것이죠.

 

95% 신뢰구간의 정확한 의미는 100개 정도의 표본을 추출하여 만들어진 신뢰구간 중

 

모평균을 포함하는 것이 평균적으로 95개라는 뜻입니다.

여기까지 회귀분석을 배울 때 알아야 할 기초통계지식을 간략하게 점검하는 시간이었습니다.

 

자세한 부분이나 증명은 다루지 않았으므로 만약 모르는 게 많다면

 

다시 복습하는 시간을 갖는 것을 추천드립니다.

 

그럼 이만!