함께하는 데이터 분석

[회귀분석] 선형회귀분석 개요① 본문

통계학과 수업 기록/회귀분석

[회귀분석] 선형회귀분석 개요①

JEONGHEON 2022. 3. 8. 16:33

안녕하세요!

 

오늘은 회귀분석을 본격적으로 배우기 전 필요한 기본지식과 대략적인 소개를 하는 시간입니다.

 

제가 공부할 회귀분석 모델은 선형회귀분석(linear regression model)입니다.

 

독립변수 여러개와 종속변수 1개인 모델입니다.

 

종속변수가 범주형인 0과 1로 나옴에 따라 로지스틱회귀분석(logistic regression model)

 

이라는 것도 있지만 여기서는 다루지 않습니다.

 

다음학기에 범주형 자료 분석 때 기회가 된다면 살펴볼 예정입니다!

 

그리고 우리는 average outcome을 기반으로 할 것입니다.

 

평균이 아닌 중위수를 기반으로 하는 quantile regression도 있지만

 

여기서는 다루지 않습니다ㅠㅠ

 

그럼 본격적으로 시작해볼까요?

 

회귀분석에서 중요한 관점은 2가지

 

Association과 Prediction입니다.

 

연관성을 찾아내는 것과 모델을 통해 예측을 하는 것이지요.

 

그럼 어떻게 회귀분석이 처음에 나타났는지 알아볼까요?

 

19세기 말 Karl Pearson이라는 사람이 엄마의 키를 알 때 딸의 키를 알고 싶었습니다.

 

이때 수학적 수식을 보면

 

D는 딸의 키로 종속변수이고 M은 엄마의 키로 독립변수라고 할 수 있습니다.

 

입실론은 오차를 나타냅니다.

 

여기서 만약 입실론이 없다면 우리는 엄마의 키만 있다면 딸의 키를 정확히 예측할 수 있겠죠.

이것은 엄마의 키와 딸의 키의 표본을 이용하여 그래프로 나타낸 것입니다.

 

우리는 앞으로 우리가 원하는 기준에 맞는 노란색 선과 같은 Best Line을 설정할 것이고

 

이러한 기준과 선을 잡고, 또 맞게 잡았는지를 알아보는 시간이 되겠습니다.

 

그렇다면 선형회귀분석식에서 사람들이 잘못 아는 경우를 알아볼까요?

 

<첫 번째 식>

위와 같은 식은 선형식이라는 것이 헷갈리지 않으실겁니다.

 

<두 번째 식>

그렇다면 이 식은 어떤가요?

 

정답은 선형식입니다!

 

우리가 말하는 선형회귀분석에서 선형은 직선뿐 아니라 위와 같은 2차식도 선형식입니다.

 

그러면 이제 첫 번째 식에서 모수인 베타제로 베타원을 구했다면

 

제대로 구했는지 확인하는 절차를 거쳐야겠죠?

 

이때 우리가 아는 통계적 가설검정을 사용하는데

 

이 부분은 다음 시간에 알아보겠습니다!

 

그럼 이만