Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- r
- 데이터 분석
- 파이썬
- 코딩테스트
- sklearn
- Deep Learning Specialization
- SQLD
- 이것이 코딩테스트다
- Python
- pytorch
- Google ML Bootcamp
- tableau
- 통계
- 이코테
- 데이터분석준전문가
- 자격증
- 시각화
- 데이터분석
- 데이터 전처리
- 딥러닝
- ADsP
- 태블로
- 머신러닝
- ML
- SQL
- IRIS
- 회귀분석
- scikit learn
- pandas
- matplotlib
Archives
- Today
- Total
함께하는 데이터 분석
[데이터 마이닝] 연관성 분석(Association Analysis) 본문
이번에는 데이터 마이닝의 분석방법 중 하나인
연관성 분석을 알아보겠습니다.
연관성 분석의 정의
- 데이터 안에 존재하는 항목 간의 연관 규칙(association rule)을 발견하는 과정
- 마케팅에서 손님의 장바구니에 들어있는 품목 간의 관계를 알아본다는 의미에서 장바구니 분석이라고도 함
연관성 분석의 예시
- 가장 유명한 예시로 월마트의 맥주와 기저귀입니다. 아내의 부탁으로 기저귀를 사갈 때 맥주를 같이 사간다는 분석입니다.
연관성 규칙의 조건
- 두 품목(품목 A와 B)이 함께 구매한 경우의 수가 일정 수준 이상이어야 함(일정 이상의 지지도)
- 품목 A를 포함하는 거래 중 품목 B를 구입하는 경우의 수가 일정 수준 이상이어야 함(일정 이상의 신뢰도)
그렇다면 이번에는 지지도와 신뢰도 등, 연관성 분석의 평가 측도를 알아보겠습니다.
연관성 분석의 평가 측도
- 지지도(support)
- 전체 거래항목 중 품목 A와 품목 B가 동시에 포함하는 거래의 비율
- P(A∩B) / n
- 신뢰도(confidence)
- 품목 A를 포함하는 거래 수 중 품목 A와 품목 B가 동시에 포함하는 거래의 비율
- P(A∩B) / P(A)
- 향상도(lift)
- 품목 A가 주어지지 않았을 때의 품목 B의 확률 대비 품목 A가 주어졌을 때의 품목 B의 확률의 증가비율
- P(A∩B) / (P(A)*P(B)) = P(B|A) / P(B)
연관성 분석의 해석
- 향상도 = 1 : 두 품목이 독립적인 관계
- 향상도 < 1 : 두 품목이 서로 음의 상관관계
- 향상도 > 1 : 두 품목이 서로 양의 상관관계
연관성 분석 알고리즘(Apriori)
step 1. 빈도가 많은 상품 집합을 모두 찾는 단계
step 2. 빈도가 많은 상품 집합 중에서 confidence의 임계값을 만족하는 상품 집합을 찾음
- 하향 닫힘 성질 : 어떤 집합이 support의 임계값을 만족하지 못하면 그 집합을 부분집합으로 가지는 집합 또한 support의 임계값을 만족하지 못함. 따라서 계산에서 제외하여 효율성을 높임
'통계학과 수업 기록 > 데이터 마이닝' 카테고리의 다른 글
[데이터 마이닝] Cluster Analysis (0) | 2022.04.01 |
---|---|
[데이터 마이닝] 의사결정나무(Decision Trees) (0) | 2022.03.29 |
[데이터 마이닝] 로지스틱 단순회귀모형 (0) | 2022.03.24 |
[데이터 마이닝] 분석기법 분류 (0) | 2022.03.15 |
[데이터 마이닝] 데이터분석과 방법론 개요 (0) | 2022.03.14 |