[spark1.6] rdd를 dataframe으로 만드는 방법

scala 2017. 2. 14. 17:35

rdd를 dataframe으로 만드는 방법 (1.6)

1) SQLContext를 사용하는 방법

val sqlContext = new SQLContext(sc)

import sqlContext.implicits._

rdd.toDF()

2) HiveContext를 이용해 DataFrame.createDataframe 이용

import scala.io.Source

import org.apache.spark.sql.types._

import org.apache.spark.sql.Row

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.sql.hive.HiveContext

val peopleRDD = sc.textFile(filename)

val schemaString = "name age"

val fields = schemaString.split(" ")

.map(fieldName => StructField(fieldName, StringType, nullable = true))

val schema = StructType(fields)

val rowRDD = peopleRDD

.map(_.split(","))

.map(attributes => Row(attributes(0), attributes(1).trim))

val sqlContext = new HiveContext(sc)

val peopleDF = sqlContext.createDataFrame(rowRDD, schema)

peopleDF.registerTempTable("people")

val results = sqlContext.sql("SELECT name FROM people")

results.collect().foreach(println)

저작자표시

'scala' 카테고리의 다른 글

[spark] spark summit 자료 (0)	2017.02.22
[scala] Array.transpose 예시 (0)	2017.02.17
[spark] foreachPartition 예시 (0)	2017.02.14
[zepplin] 여러 spark context 사용하기 (0)	2017.02.14
scala에서 uuid 생성하는 방법 (0)	2017.02.09

Posted by '김용환'

« 2025/04 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

[spark1.6] rdd를 dataframe으로 만드는 방법

'scala' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바