parquet는 성능이 좋은 것으로 알려져 있지만, 일반 텍스트로 볼 수 없다는 단점이 있다..


그러나 기능적으로 봤을 overwrite를 할 수 있다는 점에서.. parquet가 많이 쓰여질 것 같다.




로컬 장비에서 parquet 테스트는 다음처럼 진행 할 수 있다. 



scala> val ds = Seq(1, 2, 3, 4, 5).toDS

ds: org.apache.spark.sql.Dataset[Int] = [value: int]


scala> ds.write.parquet("/usr/local/spark-2.1.0-bin-hadoop2.7/test1")

SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".

SLF4J: Defaulting to no-operation (NOP) logger implementation

SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.


scala> val fromParquet = spark.read.parquet("/usr/local/spark-2.1.0-bin-hadoop2.7/test1")

fromParquet: org.apache.spark.sql.DataFrame = [value: int]


scala> fromParquet

res2: org.apache.spark.sql.DataFrame = [value: int]


scala> fromParquet.show

+-----+

|value|

+-----+

|    1|

|    2|

|    3|

|    4|

|    5|

+-----+



Posted by '김용환'
,