[spark] parquet 사용 예제
parquet는 성능이 좋은 것으로 알려져 있지만, 일반 텍스트로 볼 수 없다는 단점이 있다..
그러나 기능적으로 봤을 overwrite를 할 수 있다는 점에서.. parquet가 많이 쓰여질 것 같다.
로컬 장비에서 parquet 테스트는 다음처럼 진행 할 수 있다.
scala> val ds = Seq(1, 2, 3, 4, 5).toDS
ds: org.apache.spark.sql.Dataset[Int] = [value: int]
scala> ds.write.parquet("/usr/local/spark-2.1.0-bin-hadoop2.7/test1")
SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.
scala> val fromParquet = spark.read.parquet("/usr/local/spark-2.1.0-bin-hadoop2.7/test1")
fromParquet: org.apache.spark.sql.DataFrame = [value: int]
scala> fromParquet
res2: org.apache.spark.sql.DataFrame = [value: int]
scala> fromParquet.show
+-----+
|value|
+-----+
| 1|
| 2|
| 3|
| 4|
| 5|
+-----+