함께하는 데이터 분석

[데이터 마이닝] 분석기법 분류 본문

통계학과 수업 기록/데이터 마이닝

[데이터 마이닝] 분석기법 분류

JEONGHEON 2022. 3. 15. 13:36

안녕하세요!

 

오늘은 간단하게 데이터 마이닝의 분석기법 분류를 알아보겠습니다.

데이터 마이닝은 크게 2가지인

 

지도학습(Supervised Learning)과

 

비지도학습(Unsupervised Learning)으로 나뉩니다.

 

그렇다면 지도학습과 비지도학습의 차이는 무엇일까요?

 

지도학습은 종속변수인 y값 (output)이 존재하고 예측 분석 기법이라고도 말하죠.

 

비지도학습은 종속변수인 y값 (output)이 존재하지 않고 설명 분석 기법을 말합니다.

 

지도학습에는 대표적으로 Classification(분류분석)과 Regression(회귀분석)이 있는데

 

Classification과 Regression은 각각 종속변수가 범주형이냐 연속형이냐에 따라

 

나뉩니다. (선형회귀라고 가정)

 

비지도학습에는 대표적으로 Clustering(군집분석)이 존재합니다.

 

그렇다면 Clustering과 Classification이 비슷하여 많이들 헷갈리는데

 

차이점을 알아볼까요?

Classification은 나누는 명확한 규칙이 존재합니다.

 

그리고 가장 큰 차이점은 핑크색과 같은 새로운 input이 들어왔을 때

 

Classification은 y = 1이라고 할 수 있지만

 

Clustering은 저 새로운 input으로 인해 cluster가 새롭게 정의될 수 있어

 

다시 Clustering을 해야 한다는 차이점이 있습니다.

 

이 표에서 predictors는 독립변수이고 response는 종속변수입니다.

 

독립변수가 연속형이냐 범주형이냐 그리고 종속변수가 연속형이냐 범주형이냐에 따라

 

다양한 분석기법이 존재하죠.

 

요즘 머신러닝 분석 기법이 발달함에 따라

 

Supervised와 Unsupervised로 나뉘고

 

Supervised에서 Linear인지 Nonlinear인지

 

Nonlinear에서는 Single인지 Combined인지

 

Single에는 해석이 쉬운지 어려운지에 따라 많은 분석기법이 존재하므로 궁금하시면

 

추가적으로 공부하고 알아보시기를 권장드립니다!