spark 1.6에서는 Hive 테이블에 접근해서 데이터를 가져올 수 있다.
import org.apache.spark.sql.hive.HiveContext
val hiveContext = new HiveContext(sc)
val rows = hiveContext.sql("select * from ... limit 1")
val firstRow = rows.first()
println(firstRow)
hive 테이블에 대용량 데이터가 많으면 결과를 볼 수 없고 timeout이 발생한다.
Caused by: java.net.SocketTimeoutException: Read timed out
'scala' 카테고리의 다른 글
[spark] Only one SparkContext may be running in this JVM - StreamingContext (0) | 2017.03.24 |
---|---|
[spark] rdd의 stats 함수 (0) | 2017.03.24 |
[scala] null var 사용할 때 타입 사용하기 (0) | 2017.03.16 |
[spark] dataframe 예제 (0) | 2017.03.15 |
[spark] dataframe의 partitionby 사용시 hadoop 디렉토리 구조 (0) | 2017.03.15 |