spark job을 제출할 때 가장 중요한 요소는 메모리와 core 수이다.
관련 설정은 다음과 같은데. 아래 블로그에 잘 설명되어 있다.
http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/
이를 잘 이해하고 설명한 한글 내용은 다음 블로그에 있다.
http://kysepark.blogspot.kr/2016/04/how-to-tune-your-apache-spark-jobs-part.html
그리고 스파크 내부 아키텍처에 관련 설명은 다음 url을 살펴본다.
https://0x0fff.com/spark-architecture/
https://0x0fff.com/spark-architecture-shuffle/
'scala' 카테고리의 다른 글
[spark] EOFException:Cannot seek after EOF/java.lang.NumberFormatException: For input string: "" 해결하기 (0) | 2018.05.12 |
---|---|
[spark] 로컬 모드 아키텍처 [펌] (0) | 2018.03.29 |
[spark] 스파크 애플리케이션 튜닝 방법 - 펌 (0) | 2018.03.26 |
[spark] log4j 직렬화하기 - org.apache.spark.SparkException: Task not serializable 해결하기 (0) | 2018.03.25 |
[spark] 스파크 MLlib으로 비정상 데이터를 찾기에 좋은 참조 자료 (0) | 2018.03.14 |