스파크 MLlib은 K-평균, 이분법 K-평균, 가우스 혼합 외에 PIC, LDA, 스트리밍 K-평균과 같은 세 개의 클러스터링 알고리즘의 구현을 제공한다.
한 가지 분명한 것은 클러스터링 분석을 미세하게 튜닝하려면 종종 비정상 데이터(outlier 또는 anomaly)이라고 불리는 원치 않는 데이터 오브젝트를 제거해야 한다.
스파크 MLlib으로 비정상 데이터를 찾는데 공부하기 위한 좋은 자료
'scala' 카테고리의 다른 글
[spark] 스파크 애플리케이션 튜닝 방법 - 펌 (0) | 2018.03.26 |
---|---|
[spark] log4j 직렬화하기 - org.apache.spark.SparkException: Task not serializable 해결하기 (0) | 2018.03.25 |
[spark] 여러 모드에서 스파크 잡 실행하기 예제 (0) | 2018.03.14 |
[play2] 간단한 인증 방식 구현 예제(basic authentication) (0) | 2018.02.20 |
[play] scala play framework에서 인증/권한(authentication/authorization) 참조 문서 - 펌 (0) | 2018.02.09 |