통계학과 수업 기록/데이터 마이닝
[데이터 마이닝] 연관성 분석(Association Analysis)
JEONGHEON
2022. 4. 6. 18:02
이번에는 데이터 마이닝의 분석방법 중 하나인
연관성 분석을 알아보겠습니다.
연관성 분석의 정의
- 데이터 안에 존재하는 항목 간의 연관 규칙(association rule)을 발견하는 과정
- 마케팅에서 손님의 장바구니에 들어있는 품목 간의 관계를 알아본다는 의미에서 장바구니 분석이라고도 함
연관성 분석의 예시
- 가장 유명한 예시로 월마트의 맥주와 기저귀입니다. 아내의 부탁으로 기저귀를 사갈 때 맥주를 같이 사간다는 분석입니다.
연관성 규칙의 조건
- 두 품목(품목 A와 B)이 함께 구매한 경우의 수가 일정 수준 이상이어야 함(일정 이상의 지지도)
- 품목 A를 포함하는 거래 중 품목 B를 구입하는 경우의 수가 일정 수준 이상이어야 함(일정 이상의 신뢰도)
그렇다면 이번에는 지지도와 신뢰도 등, 연관성 분석의 평가 측도를 알아보겠습니다.
연관성 분석의 평가 측도
- 지지도(support)
- 전체 거래항목 중 품목 A와 품목 B가 동시에 포함하는 거래의 비율
- P(A∩B) / n
- 신뢰도(confidence)
- 품목 A를 포함하는 거래 수 중 품목 A와 품목 B가 동시에 포함하는 거래의 비율
- P(A∩B) / P(A)
- 향상도(lift)
- 품목 A가 주어지지 않았을 때의 품목 B의 확률 대비 품목 A가 주어졌을 때의 품목 B의 확률의 증가비율
- P(A∩B) / (P(A)*P(B)) = P(B|A) / P(B)
연관성 분석의 해석
- 향상도 = 1 : 두 품목이 독립적인 관계
- 향상도 < 1 : 두 품목이 서로 음의 상관관계
- 향상도 > 1 : 두 품목이 서로 양의 상관관계
연관성 분석 알고리즘(Apriori)
step 1. 빈도가 많은 상품 집합을 모두 찾는 단계
step 2. 빈도가 많은 상품 집합 중에서 confidence의 임계값을 만족하는 상품 집합을 찾음
- 하향 닫힘 성질 : 어떤 집합이 support의 임계값을 만족하지 못하면 그 집합을 부분집합으로 가지는 집합 또한 support의 임계값을 만족하지 못함. 따라서 계산에서 제외하여 효율성을 높임