[spark] 스파크 MLlib으로 비정상 데이터를 찾기에 좋은 참조 자료

scala

'김용환' 2018. 3. 14. 02:42

스파크 MLlib은 K-평균, 이분법 K-평균, 가우스 혼합 외에 PIC, LDA, 스트리밍 K-평균과 같은 세 개의 클러스터링 알고리즘의 구현을 제공한다.

한 가지 분명한 것은 클러스터링 분석을 미세하게 튜닝하려면 종종 비정상 데이터(outlier 또는 anomaly)이라고 불리는 원치 않는 데이터 오브젝트를 제거해야 한다.

스파크 MLlib으로 비정상 데이터를 찾는데 공부하기 위한 좋은 자료