일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 이코테
- 딥러닝
- matplotlib
- 회귀분석
- 데이터 분석
- pandas
- 코딩테스트
- 머신러닝
- 이것이 코딩테스트다
- 데이터 전처리
- 시각화
- scikit learn
- tableau
- ADsP
- 파이썬
- 데이터분석준전문가
- pytorch
- 데이터분석
- ML
- 통계
- SQLD
- 자격증
- sklearn
- Python
- IRIS
- Google ML Bootcamp
- 태블로
- Deep Learning Specialization
- SQL
- r
- Today
- Total
목록데이터 마이닝 (5)
함께하는 데이터 분석
이번에는 데이터 마이닝의 분석방법 중 하나인 연관성 분석을 알아보겠습니다. 연관성 분석의 정의 데이터 안에 존재하는 항목 간의 연관 규칙(association rule)을 발견하는 과정 마케팅에서 손님의 장바구니에 들어있는 품목 간의 관계를 알아본다는 의미에서 장바구니 분석이라고도 함 연관성 분석의 예시 - 가장 유명한 예시로 월마트의 맥주와 기저귀입니다. 아내의 부탁으로 기저귀를 사갈 때 맥주를 같이 사간다는 분석입니다. 연관성 규칙의 조건 두 품목(품목 A와 B)이 함께 구매한 경우의 수가 일정 수준 이상이어야 함(일정 이상의 지지도) 품목 A를 포함하는 거래 중 품목 B를 구입하는 경우의 수가 일정 수준 이상이어야 함(일정 이상의 신뢰도) 그렇다면 이번에는 지지도와 신뢰도 등, 연관성 분석의 평가 ..
오늘은 비지도학습인 Cluster Analysis(군집분석)을 공부해보겠습니다. Clustering 이란? - 데이터에서 속성(input variables)에 따라 데이터들(observations) 간의 유사성을 측정하여 군집(cluster)을 찾는 것 - 군집을 찾을 때는 같은 군집 내의 데이터들은 가능한 동질성을 갖게 하고, 군집 간 데이터들은 가능한 이질성을 갖게 해야 함 Cluster Analysis의 활용 고객의 세분화 고객의 맞춤 관리 구매패턴에 따른 신상품 판촉 교차판매 유사성 거리 측도 Euclidean Distance : 직선 거리 Manhattan Distance : ㄱ자 거리 Mahalanobis Distance : 표준화와 상관성을 동시에 고려한 거리 이때 S는 표본 공분산 행렬 S..
오늘은 데이터 마이닝의 분석방법 중 하나인 의사결정나무를 알아보겠습니다. 의사결정나무의 정의 - 과거에 수집된 데이터들을 분석하여 이들 사이에 존재하는 패턴 즉, 범주별 특성을 속성의 조합으로 나타내는 분류 모형 의사결정나무의 목적 - 새로운 데이터에 대해 분류(Classification)하거나 해당 범주의 값을 예측하는 것 변수 유형에 따른 분류 범주형 : 분류나무(Classification Tree) 연속형 : 회귀나무(Regression Tree) 의사결정나무 구성요소 노드(Node) 가지(Branch) 깊이(Depth) : 깊어질수록 복잡도 상승 제일 위의 신용도에서 가지가 쳐서 나오므로 root node라고 하고 마지막 노드를 terminal node라고 합니다. 여기서 신용도와 나이, 성별을 ..
안녕하세요! 오늘은 간단하게 데이터 마이닝의 분석기법 분류를 알아보겠습니다. 데이터 마이닝은 크게 2가지인 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)으로 나뉩니다. 그렇다면 지도학습과 비지도학습의 차이는 무엇일까요? 지도학습은 종속변수인 y값 (output)이 존재하고 예측 분석 기법이라고도 말하죠. 비지도학습은 종속변수인 y값 (output)이 존재하지 않고 설명 분석 기법을 말합니다. 지도학습에는 대표적으로 Classification(분류분석)과 Regression(회귀분석)이 있는데 Classification과 Regression은 각각 종속변수가 범주형이냐 연속형이냐에 따라 나뉩니다. (선형회귀라고 가정) 비지도학습에는 대표적으로 Clust..
안녕하세요! 오늘은 데이터 마이닝을 소개하기까지 간단한 개요를 소개하겠습니다. 분석 대상과 방법 데이터 분석은 대상(What)과 분석의 방법(How)에 따라 4가지 유형으로 나눌 수 있습니다. 한 가지 주제의 분석이라도 상황에 따라 4가지 유형으로 분석을 수행하고 결과를 도출할 수 있습니다. 분석 기획시 고려할 사항 1. 가용데이터에 대한 고려(Available Data) 2. 적절한 활용방안과 활용사례(Proper Business Use Case) 3. 장애요소들에 대한 사전 계획 수립(Low Barrier of Excution) 분석 방법론 1. KDD 분석 방법론 2. CRISP-DM 방법론 위의 두 가지의 방법론이 존재합니다. 그중 데이터 마이닝의 과정을 포함하고 있는 KDD 방법론을 알아보겠습니..