함께하는 데이터 분석

[데이터 마이닝] 데이터분석과 방법론 개요 본문

통계학과 수업 기록/데이터 마이닝

[데이터 마이닝] 데이터분석과 방법론 개요

JEONGHEON 2022. 3. 14. 18:47

안녕하세요!

 

오늘은 데이터 마이닝을 소개하기까지 간단한 개요를 소개하겠습니다.

 

분석 대상과 방법

데이터 분석은 대상(What)과 분석의 방법(How)에 따라

 

4가지 유형으로 나눌 수 있습니다.

 

한 가지 주제의 분석이라도 상황에 따라 4가지 유형으로

 

분석을 수행하고 결과를 도출할 수 있습니다.

 

분석 기획시 고려할 사항

1. 가용데이터에 대한 고려(Available Data)

2. 적절한 활용방안과 활용사례(Proper Business Use Case)

3. 장애요소들에 대한 사전 계획 수립(Low Barrier of Excution)

 

분석 방법론

1. KDD 분석 방법론

2. CRISP-DM 방법론

 

위의 두 가지의 방법론이 존재합니다.

 

그중 데이터 마이닝의 과정을 포함하고 있는 KDD 방법론을 알아보겠습니다.

 

KDD란?

KDD(Knowledge Discovery in Database) 분석 방법론은 1996년

 

Fayyad가 소개한 방법론으로 데이터를 통해 통계적 패턴이나 지식을 찾을 수 있도록

 

정리한 데이터 마이닝 프로세스입니다.

 

데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화, 통계학 등에서

 

응용될 수 있습니다.

 

KDD 분석 방법론의 절차

1. 데이터 선택(Selection)

    : 데이터베이스나 Raw data에서 분석에 필요한 데이터 선택하는 단계

2. 데이터 전처리(Preprocessing)

    : 이상값, 결측값들을 식별하고 처리하는 단계

3. 데이터 변환(Transformation)

    : 정제된 데이터를 분석 목적에 따라 차원을 축소하고 데이터 마이닝을 진행할 수 있도록 변환하는 단계

4. 데이터 마이닝(Data Mining)

    : 데이터 마이닝을 실행하는 단계. 필요하면 전처리 및 변환 절차를 반복

5. 데이터 마이닝 결과 및 평가(Interpretation/Evaluation)

    : 데이터 마이닝을 수행한 결과에 대한 해석과 평가를 진행하는 단계

 

여기까지 아주 간단한 개요를 살펴봤고

 

다음 시간에는 데이터 마이닝 분석기법 분류인

 

지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)의 종류에 대해

 

알아보겠습니다!