군집분석 예제 데이터


0 Flares Filament.io 0 Flares ×

이 게시물에서 분석하려고 하는 데이터 세트는 이탈리아의 특정 지역에서 재배되었지만 세 가지 다른 품종에서 파생된 와인의 화학적 분석결과입니다. 분석은 와인의 세 가지 유형의 각각에서 발견 13 성분의 양을 결정했다. 속성은 다음과 같습니다 알코올, 말산, 재, 재의 알칼리도, 마그네슘, 총 페놀, 플라바노이드, 논플라바노이드 페놀, 프로안토시아닌, 색상 강도, 색조, OD280 / OD315 희석 와인, 및 프롤린. 데이터 집합에는 178개의 관측값이 있으며 누락된 값이 없습니다. 여기에서 다운로드할 수 있습니다. 누적 비율을 살펴보면 처음 두 주 성분이 데이터 분산의 60.9%를 설명하는 반면 처음 세 구성 요소는 데이터의 분산의 약 69.6%를 설명하는 것으로 나타났습니다. 다음 스크리드 플롯은 분산의 감쇠를 보여 주며, 이플롯을 보여 주어도 됩니다. 간격 데이터의 경우 가장 일반적인 방법은 사각형 유클리디안 거리입니다. 제곱 거리 합계의 제곱근인 두 관측값 사이의 유클리디안 거리를 기반으로 합니다. 유클리디안 거리가 제곱되기 때문에 작은 거리의 중요성을 약화시키면서 먼 거리의 중요성을 증가시킵니다.

우리는 서수 데이터 (개수)가있는 경우 우리는 카이 스퀘어 또는 파이 스퀘어라는 표준화 된 카이 스퀘어 사이에서 선택할 수 있습니다. 이진 데이터의 경우 제곱 유클리드 거리가 일반적으로 사용됩니다. 클러스터 분석 답변의 일반적인 연구는 다음과 같습니다: 스케일이 조정되지 않은 데이터와 비교할 때 정확도가 향상되었습니다. 교육 세트의 정확도는 110/118 = 93.2%, 테스트 세트의 경우 58/60 = 96.7%입니다. 그러나 우리는 100 %에 너무 가깝다는 것이 항상 좋은 것은 아니며, 과적합에 문제가있을 수 있으므로 주의해야합니다. 다음은 자신에 대한 여섯 번째 독립적 인 구성 요소의 플롯입니다 – 실제로, 그것은 매우 정확하게 데이터를 분리 할 수 있습니다. PCA와 달리 ICA의 목표는 특정 순서없이 13개의 통계적으로 독립적인 구성 요소를 생성한 다음 이러한 구성 요소를 사용하여 데이터를 클러스터화하는 것입니다. 패키지 카포트의 함수 preProcess를 사용하여 학습 데이터를 변환했으며 테스트 데이터에 동일한 변환이 적용되었습니다. 아래에서 는 구성 요소 ICA6이 데이터를 클러스터링할 때 좋은 역할을 하는 반면 다른 12개 구성 요소는 데이터를 클러스터링할 수 없습니다. 첫째, 우리는 원시, 비스케일, 광택없는 데이터를 처리 하려고합니다. 이것이 최선의 방법은 아니지만 결과에 관심이 있습니다.

우리는 100 개의 다른 씨앗을 사용하여 100 가지 가능한 클러스터링 방법을 갖춘 목록 (L1이라는 이름)을 만듭니다. 이것은 재현성을 처리합니다. 이 100개의 결과 중에서 총 WCSS를 최소화한 하나를 선택하고, 그 중에서도 원래 클래스 이름 “1”, “2”, “3”이 클러스터링 클래스 이름 “1”, “2”, “3”과 일치하기 때문에 L1[[3]]을 선택했습니다. 이 필요는 없지만 결과를 해석하는 것이 더 쉽습니다. 우리는 알고리즘이 교육 세트 (70.3 % 정확도)에서 괜찮은 일을했지만 73.3 %의 정확도로 테스트 세트에서 더 나은 작업을 수행했다는 것을 알 수 있습니다 (이는 이전에 “보이지 않은”데이터에 대한 알고리즘을 테스트하는 것을 선호하기 때문에 더 중요합니다).