[spark] parquet 사용 예제

scala

'김용환' 2017. 5. 26. 14:29

parquet는 성능이 좋은 것으로 알려져 있지만, 일반 텍스트로 볼 수 없다는 단점이 있다..

그러나 기능적으로 봤을 overwrite를 할 수 있다는 점에서.. parquet가 많이 쓰여질 것 같다.

로컬 장비에서 parquet 테스트는 다음처럼 진행 할 수 있다.

scala> val ds = Seq(1, 2, 3, 4, 5).toDS

ds: org.apache.spark.sql.Dataset[Int] = [value: int]

scala> ds.write.parquet("/usr/local/spark-2.1.0-bin-hadoop2.7/test1")

SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".

SLF4J: Defaulting to no-operation (NOP) logger implementation

SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.

scala> val fromParquet = spark.read.parquet("/usr/local/spark-2.1.0-bin-hadoop2.7/test1")

fromParquet: org.apache.spark.sql.DataFrame = [value: int]

scala> fromParquet

res2: org.apache.spark.sql.DataFrame = [value: int]

scala> fromParquet.show

+-----+

|value|

+-----+

| 1|

| 2|

| 3|

| 4|

| 5|

+-----+