함께하는 데이터 분석

[데이터 마이닝] 연관성 분석(Association Analysis) 본문

통계학과 수업 기록/데이터 마이닝

[데이터 마이닝] 연관성 분석(Association Analysis)

JEONGHEON 2022. 4. 6. 18:02

이번에는 데이터 마이닝의 분석방법 중 하나인

 

연관성 분석을 알아보겠습니다.

 


 

연관성 분석의 정의

  • 데이터 안에 존재하는 항목 간의 연관 규칙(association rule)을 발견하는 과정
  • 마케팅에서 손님의 장바구니에 들어있는 품목 간의 관계를 알아본다는 의미에서 장바구니 분석이라고도 함

 

연관성 분석의 예시

- 가장 유명한 예시로 월마트의 맥주와 기저귀입니다. 아내의 부탁으로 기저귀를 사갈 때 맥주를 같이 사간다는 분석입니다.

 

연관성 규칙의 조건

  1. 두 품목(품목 A와 B)이 함께 구매한 경우의 수가 일정 수준 이상이어야 함(일정 이상의 지지도)
  2. 품목 A를 포함하는 거래 중 품목 B를 구입하는 경우의 수가 일정 수준 이상이어야 함(일정 이상의 신뢰도)

 

그렇다면 이번에는 지지도와 신뢰도 등, 연관성 분석의 평가 측도를 알아보겠습니다.

 

연관성 분석의 평가 측도

  • 지지도(support)

- 전체 거래항목 중 품목 A와 품목 B가 동시에 포함하는 거래의 비율

- P(A∩B) / n

 

  • 신뢰도(confidence)

- 품목 A를 포함하는 거래 수 중 품목 A와 품목 B가 동시에 포함하는 거래의 비율

- P(A∩B) / P(A)

 

  • 향상도(lift)

- 품목 A가 주어지지 않았을 때의 품목 B의 확률 대비 품목 A가 주어졌을 때의 품목 B의 확률의 증가비율 

- P(A∩B) / (P(A)*P(B)) = P(B|A) / P(B)

 

 

연관성 분석의 해석

  • 향상도 = 1 : 두 품목이 독립적인 관계
  • 향상도 < 1 : 두 품목이 서로 음의 상관관계
  • 향상도 > 1 : 두 품목이 서로 양의 상관관계

 

 

연관성 분석 알고리즘(Apriori)

step 1. 빈도가 많은 상품 집합을 모두 찾는 단계

step 2. 빈도가 많은 상품 집합 중에서 confidence의 임계값을 만족하는 상품 집합을 찾음

 

  • 하향 닫힘 성질 : 어떤 집합이 support의 임계값을 만족하지 못하면 그 집합을 부분집합으로 가지는 집합 또한 support의 임계값을 만족하지 못함. 따라서 계산에서 제외하여 효율성을 높임