스파크 MLlib은 K-평균, 이분법 K-평균, 가우스 혼합 외에 PIC, LDA, 스트리밍 K-평균과 같은 세 개의 클러스터링 알고리즘의 구현을 제공한다.
한 가지 분명한 것은 클러스터링 분석을 미세하게 튜닝하려면 종종 비정상 데이터(outlier 또는 anomaly)이라고 불리는 원치 않는 데이터 오브젝트를 제거해야 한다.
스파크 MLlib으로 비정상 데이터를 찾는데 공부하기 위한 좋은 자료
'scala' 카테고리의 다른 글
| [spark] 스파크 애플리케이션 튜닝 방법 - 펌 (0) | 2018.03.26 |
|---|---|
| [spark] log4j 직렬화하기 - org.apache.spark.SparkException: Task not serializable 해결하기 (0) | 2018.03.25 |
| [spark] 스파크 MLlib으로 비정상 데이터를 찾기에 좋은 참조 자료 (0) | 2018.03.14 |
| [spark] 여러 모드에서 스파크 잡 실행하기 예제 (0) | 2018.03.14 |
| [play2] 간단한 인증 방식 구현 예제(basic authentication) (0) | 2018.02.20 |
| [play] scala play framework에서 인증/권한(authentication/authorization) 참조 문서 - 펌 (0) | 2018.02.09 |



댓글을 달아 주세요