[spark] 기본 파티션 개수

scala 2018. 10. 12. 15:22

scala> val rdd_one = sc.parallelize(Seq(1,2,3))

rdd_one: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

scala> rdd_one.getNumPartitions

res0: Int = 12

scala>

scala> sc.defaultParallelism

res1: Int = 12

기본 파티션 개수는 cpu 개수를 기반으로 만들어지거나 (장비별로 다른 값이 나옴, defaultParallelism으로 확인할 수 있다.) 스파크 설정 매개 변수 spark.default.parallelism 또는 클러스터의 코어 개수 중 하나이다

그외에 큰 자원을 읽을 때 기본 파티션 개수가 변경될 수 있다.

파티션 개수는 RDD 트랜스포메이션을 실행할 태스크 수에 직접적인 영향을 주기 때문에 파티션 개수가 중요하다.

파티션 개수가 너무 적으면 많은 데이터에서 아주 일부의 CPU/코어만 사용하기 때문에 성능이 저하되고 클러스터를 제대로 활용하지 못하게 된다.

반면에 파티션 개수가 너무 많으면 실제로 필요한 것보다 많은 자원을 사용하기 때문에 멀티 테넌트 환경에서는 자원 부족 현상이 발생할 수 있다.

Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.im plicits._ Support for serializing other types will be added in future releases. (0)	2018.10.29
[spark] - spark streaming의 누산기 예시 (0)	2018.10.25
[spark] "랜덤 포레스트를 이용한 MNIST 데이터셋 분류" 예 (0)	2018.06.01
[spark] 로지스틱 회귀 분석을 이용한 멀티 클래스 분류 (0)	2018.05.31
[spark] spark-shell 메모리/cpu 설정 (0)	2018.05.31