김용환 블로그(2004-2020) :: [spark] rdd의 stats 함수

[spark] rdd의 stats 함수

scala 2017. 3. 24. 19:24

spark rdd에 간단한 통계 기능(count, mean, stdev, max, min)이 있고 이를 한 번에 묶는 stats 함수가 있다.

scala> val a = sc.parallelize(List("111", "222"))

a: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[0] at parallelize at <console>:24

scala> val ints = a.map(string => string.toInt)

ints: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[1] at map at <console>:26

scala> val stats = ints.stats()

stats: org.apache.spark.util.StatCounter = (count: 2, mean: 166.500000, stdev: 55.500000, max: 222.000000, min: 111.000000)

scala> stats.count

res0: Long = 2

scala> stats.mean

res1: Double = 166.5

scala> stats.stdev

res2: Double = 55.5

scala> stats.max

res3: Double = 222.0

scala> stats.min

res4: Double = 111.0

저작자표시 (새창열림)

'scala' 카테고리의 다른 글

[spark] spark-shell에서 특정 라이브러리의 의존성 라이브러리 다운받기(spark cassandra connector 라이브러리 다운받기) (0)	2017.03.25
[spark] Only one SparkContext may be running in this JVM - StreamingContext (0)	2017.03.24
[spark 1.6] hive 접근하기 (0)	2017.03.22
[scala] null var 사용할 때 타입 사용하기 (0)	2017.03.16
[spark] dataframe 예제 (0)	2017.03.15

Posted by '김용환'

,

블로그 이미지

카카오 다니는 개발자 아저씨 '김용환'

카테고리

분류 전체보기 (4074)

scribbling (409)

golang (9)

Cloud (97)

nginx (13)

Apache Storm (2)

kafka (22)

Elasticsearch (140)

MQ (1)

Redis (37)

hbase (14)

mongodb (34)

hadoop (54)

mesos and marathon (12)

scala (273)

머신러닝_딥러닝 (4)

데이터 분석 (2)

cassandra (54)

erlang (6)

소셜동향 (20)

unix and linux (231)

go lang (25)

OS concept (12)

애자일 (4)

Ruby (39)

docker (49)

java core (237)

general java (269)

아두이노 (36)

안드로이드-iOS-Webkit (34)

nosql (94)

java libs (5)

Ansible-Puppet-Chef (44)

HTML5 (14)

컴파일러 (2)

레고 마인드스톰 NXT2.0 (20)

j2me (11)

Web service (143)

web (114)

Make (DIY) 소개 (9)

eclipse (23)

c or linux (213)

R (83)

Clouding (10)

java UI (9)

paper and essay (10)

svn (13)

etc tools (76)

c sharp (2)

c++ (6)

perl (18)

java script (28)

python (65)

DB (118)

general computer (4)

Tool (75)

Trend (47)

기술사 (10)

Architecture (13)

Digital TV (8)

Security (8)

Economics (30)

Chinese (7)

After reading book (60)

After reading article or pa.. (40)

철학 (28)

부동산 (8)

나의 경제 (19)

팁앤테크 (7)

프레젠테이션 (16)

신앙 (4)

디자인-아키텍쳐 (21)

내가좋아하는음악 (2)

오스틴Today'sWord (35)

영어앤영문권 (71)

영어찬양 (1)

여행수기 (20)

리더쉽 (36)

혁신 (12)

Embedded-임베디드 (5)

영화를 보고 (23)

좋은 흔적남기기 (21)

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

Total :
Today :
Yesterday :

티스토리 초대신청

티스토리툴바