spark 1.6에서는 Hive 테이블에 접근해서 데이터를 가져올 수 있다. 


import org.apache.spark.sql.hive.HiveContext

val hiveContext = new HiveContext(sc)
val rows = hiveContext.sql("select * from ... limit 1")
val firstRow = rows.first()
println(firstRow)


hive 테이블에 대용량 데이터가 많으면 결과를 볼 수 없고 timeout이 발생한다. 


Caused by: java.net.SocketTimeoutException: Read timed out


Posted by '김용환'
,