본문 바로가기

R & ADsP

ADsP :: R 이론부터 실전까지 한번에 보기<연관분석>

by m_ahh 2017. 6. 21.
반응형

ADsP를 준비하며 정리했던 자료들. 내가 정리 한 것들은 2017년 개정판, 인터넷자료들,위키백과 등 이다. 카테고리는 2017개정판 데이터분석 전문가 책기준으로 되어있다.



4절 연관 분석



1.연관규칙

 먼저 연관규칙의 개념에 대해 알아야 한다. 연관규칙 이란 항목들 간의 조건이나 결과식으로 표현되는 유용한 패턴을 의미하는데, 이를 활용하여 패턴이나 규칙을 발견해 내는 것을 연관분석이라고 한다. 다른 말로 장바구니 분석이라고도 한다. 

 이때 사용하는 데이터의 형태를 장바구니데이터 라고 하고, 장바구니데이터는 판매시점에서 기록된 거래, 품목에 대한 정보를 가진다.  트랜젝션 이란 특정 고객이나 장바구니 하나에 해당하는 정보를 의미한다. 연관분석시 주로 트랜젝션 사이의 연관성을 보고, 규칙과 패턴을 찾게되는데, 꼭 모든 규칙이 유용하게 작용하진 않을 수도 있다. 데이터분석준전문가 시험을 준비할때에는 이 단원의 각 용어의 의미와 정의 범위에 대해 확실히 해두는 것이 좋다.  

 

 연관분석의 장점 으로는 조건반응 표현식의 결과를 이해하기 쉽고, 비목적성 분석이 용이하고, 편리한 분석데이터 형태, 그리고 계산의 용이성을 꼽을 수 있다. 그에 비해 단점 으로는 상당한 수의 계산과정을 거쳐야 하고, 적절한 품목의 결정이 어렵다는 점이다. 또한 거래량이 적은 품목과 거래량이 많은 품목에 대한 상대성차이에 의해 결과가 다르게 나타날 수 있고, 규칙을 발견하기 어렵다. 


R > arules 패키지 apriori()함수 

R > <발굴한 연관규칙의 시각화> #arulesViz 패키지



 이러한 연관규칙을 측정하는 지표에는 여러가지가 있다. 



<도출된 연관규칙이 얼마나 유의미한지 판단하는 과정>

지지도

support

전체 거래 중 품목 a,b가 동시에 포함되는 거래 비율을 나타낸다. 지지도를 통해 전체 구매경향 파악이 가능하고, 연관규칙이 나오면 불필요한 분석을 감소할 수 있다. 

지지도=P(AB)=a,b동시거래수/전체거래수

신뢰도

confidence

품목A가 포함된 거래 중 a,b 동시 포함 거래일 확률(a->b)을 나타낸다. 

신뢰도=P(AB)/P(A)=A,B동시거래수/A포함하는 거래수

향상도

fit

B구매 고객대비 품목A구매후, B구매하는 고객에 대한 확률을 나타낸다. 연관규칙A->B는 서로 관련없는 경우 P(B|A)=P(B)이므로 향상도는 1 을 나타내게 되어있다,. 


향상도=P(B|A)/P(B)=P(AB)/P(A)P(B)

=AB를 포함하는 거래수/A포함거래수*B포함거래수




<Apriori알고리즘>: 최소지지도를 갖는 연관규칙을 찾는 방법

 먼저 최소 지지도를 설정한다. 개별품목 중에서 최소지지도를 넘는 모든 품목을 찾고, 이 과정에서의 개별품목만을 이용해 최소지지도를 넘는 2가지 품목집합을 찾게된다. 위의 절차에서 찾은 품목집합을 결합해 최소지지도를 넘는 3가지 품목집합을 찾는다. 이 같은 과정을 반복수행하여 최소지지도가 넘는 품목의 집합을 찾을 수 있다. 


 <순차패턴>

 연관규칙의 발견은 어떤 고객의 시간에 따른 정보를 활용해 이루어 지기도 한다. 이를 순차적 패턴이라고 하고 구매순서가 고려되어 상품간 데이터 연관성을 측정하며, 유용한 연관규칙을 찾을 수 도 있다. 단, 이때는 구매 시점에 대한 데이터가 필요하다.  


반응형

댓글