김용환 블로그(2004-2020) :: [spark2] groupByKey를 쓰지 않도록 한다

[spark2] groupByKey를 쓰지 않도록 한다

scala 2017. 8. 10. 19:24

spark에서 groupByKey를 사용할 때 성능에 많이 떨어질 수 있다.

좋은 설명을 포함한 링크가 있다.

https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/prefer_reducebykey_over_groupbykey.html

groupByKey를 살펴보면, 키 값으로 분류를 하고 모든 계산을 하나씩 진행한다. 따라서 모든 데이터 복사가 많이 일어날 수 있다.

반면 reduceByKey에서는 계산을 진행할때 데이터 셔플 전에 노드 내에서 조금 계산해놓는다. 따라서 불필요한 데이터가 전달되지 않기 때문에 네트웍 트래픽, 복사 비용이 groupByKey보다 줄어든다.

마치 map/reduce의 custom combiner와 비슷한 느낌으로 동작한다.

http://www.admin-magazine.com/HPC/Articles/MapReduce-and-Hadoop

저작자표시 (새창열림)

'scala' 카테고리의 다른 글

[play2] import play.db.Database 에러 (0)	2017.10.30
[sbt] dependency 추가시 %%(double percent)와 %(percent) 차이점 (0)	2017.10.30
[spark2] mapPartitionWithIndex 예제 (0)	2017.08.10
[scala] Product 이해하기 (0)	2017.08.10
[spark] [펌질] wide dependecy, narrow dependency (0)	2017.08.08

Posted by '김용환'

,

블로그 이미지

카카오 다니는 개발자 아저씨 '김용환'

카테고리

분류 전체보기 (4074)

scribbling (409)

golang (9)

Cloud (97)

nginx (13)

Apache Storm (2)

kafka (22)

Elasticsearch (140)

MQ (1)

Redis (37)

hbase (14)

mongodb (34)

hadoop (54)

mesos and marathon (12)

scala (273)

머신러닝_딥러닝 (4)

데이터 분석 (2)

cassandra (54)

erlang (6)

소셜동향 (20)

unix and linux (231)

go lang (25)

OS concept (12)

애자일 (4)

Ruby (39)

docker (49)

java core (237)

general java (269)

아두이노 (36)

안드로이드-iOS-Webkit (34)

nosql (94)

java libs (5)

Ansible-Puppet-Chef (44)

HTML5 (14)

컴파일러 (2)

레고 마인드스톰 NXT2.0 (20)

j2me (11)

Web service (143)

web (114)

Make (DIY) 소개 (9)

eclipse (23)

c or linux (213)

R (83)

Clouding (10)

java UI (9)

paper and essay (10)

svn (13)

etc tools (76)

c sharp (2)

c++ (6)

perl (18)

java script (28)

python (65)

DB (118)

general computer (4)

Tool (75)

Trend (47)

기술사 (10)

Architecture (13)

Digital TV (8)

Security (8)

Economics (30)

Chinese (7)

After reading book (60)

After reading article or pa.. (40)

철학 (28)

부동산 (8)

나의 경제 (19)

팁앤테크 (7)

프레젠테이션 (16)

신앙 (4)

디자인-아키텍쳐 (21)

내가좋아하는음악 (2)

오스틴Today'sWord (35)

영어앤영문권 (71)

영어찬양 (1)

여행수기 (20)

리더쉽 (36)

혁신 (12)

Embedded-임베디드 (5)

영화를 보고 (23)

좋은 흔적남기기 (21)

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

Total :
Today :
Yesterday :

티스토리 초대신청

티스토리툴바