본문 바로가기

R & ADsP

ADsP :: R 이론부터 실전까지 한번에 보기<군집분석>

by m_ahh 2017. 6. 20.
반응형

ADsP를 준비하며 정리했던 자료들이다. 2017년이 되면서 교재가 개정되었다고 하는데, 어떻게 개정된 지는 모르겠다. 내가 정리 한 것들은 2017년 개정판을 기준으로 참고하였고, 다른 기타 인터넷자료들과 위키백과 등을 참고하여 정리했다. 카테고리(절,번호 등) 구분은 2017개정판 데이터분석 전문가 책(그 두꺼운 5만원 상당의 책) 기준으로 되어있다.



3절 군집 분석(2)


3.혼합분포군집

 혼합분포군집이란 모형기반의 군집방법으로 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로 나왔다는 가정하에서, 모수와 함께 가중치를 자료로부터 추정하는 것이다. k개의 모형은 군집을 의미하고, 추정된 k개의 모형 중 어느모형으로부터 나왔을 확률이 높은지에따라 군집을 분류하게 된다. 혼합모형에서의 모수와 가중치의 추정, 최대 가능도 추정에는 EM알고리즘을 사용한다. 시험에서는 EM알고리즘의 원리에 대해 확실히 알아놓는 것이 좋다.

 장점은 확률분포를 도입하여 군집수행하는 모형기반 군집방법으로, 군집을 몇개의 모수로 표현할 수 있고, 서로 다른 크기나 모양의 군집을 찾을 수 있다. 

 단점으로는 EM알고리즘을 통한 모수추정에서 시간이 걸리고, 군집 크기가 작으면 추정도가 저하되어 어렵다. 또한 이상값에 민감하여 사전에 제거해줘야 한다. 


<EM알고리즘> 

  각 집단의 분포는 정규분포를 따른다고 가정하고, 각 자료가 어느 집단에서 나온지 안다면 해당 모수의 추정은 어렵지 않다. 그러나, 각 자료가 어느 집단에서 나온지 모르니까 잠재변수의 개념을 도입하게 된다. 잠재변수가 z일때, 모수초기값이 주어져있다면(초기분포 값을 안다면), 각 자료가 어느집단으로부터 나올 확률이 높은지에대해 추정할 수 있다. => E단계

 그 다음 각 자료의 x의 조건부분포로 부터 조건부 기대값을 구한다. 관측변수 x와 잠재변수 z를 포함하는 로그가능도함수에 상수값인 z의 조건부기댓값을 대입하여, 로그가능도함수를 최대로 하는 모수를 찾는다 => M단계


 

R  > 정규혼합분포의 추정과 군집화 :

mixtools 패키지의 normalmixEM() 함수, mclust패키지의 Mclust()함수, norlmix, HDclassif, EMcluster






4. 자기조직화지도

 자기조직화지도, SOM, Self-organizing maps 는 1990, 1995, 1996년도에 코호넨 이 개발한 알고리즘이다. 비지도 신경망으로 고차원의 데이터를 저차원의 뉴런으로 정렬하여 지도형태로 형상화 하는 것인데, 입력번수의 위치관계를 그대로 보존하는 특징이 있다. 즉, 실제공간의 입력변수가 가까이 있다면 지도상에서 가까운 위치에 존재하는 것이다. 따라서 패턴발견이나 이미지분석에 용이하다. 
 

<SOM모델> 두 개의 인공신경망 구조로 변수와 동일하게 뉴런수가 존재하며, 자료는 학습을 통해 경쟁층에 (맵) 정렬하게 된다. 입력층은 입력벡터를 받는 층이고, 경쟁층은 2차원격자구조로 입력벡터의 특성에 따라 벡터가 한점으로 클러스터링 되는 층이다. 또한 입력층의 뉴런들은 경쟁층에 각각의 뉴련과 연결되는 완전연결의 현태를 띈다. 


<SOM학습알고리즘>

  SOM 맵의 노드에 대한 연결강도를 초기화하고, 입력벡터를 제시한다. 그 다음 유클리드거리를 사용해 입력벡터와 프로토타입벡터사이의 유사도를 계산하고, 입력벡터와 가장 짧은 벡터 BMU를 탐색한다. BMU와 그 이웃들의 연결강도를 재조정하여 가장 입력패턴과 유사한 경쟁층이 승자이다. 승자독식구조로 경쟁층에는 승자뉴런만 나타나고 패턴 동일한 경쟁뉴런이 배열된다. 이 과정을 다시 입력벡터 제시단계부터 반복하게 된다.

cf. R로 구현된 SOM그리드를 SPSS 모델러 유사하게 도식화하려면 ggplot2 패키지사용



R > kohonen 패키지 사용 



반응형

댓글