hive가 다 좋은데, 성능이 너무 느려서 힘들었다. 과거에 로그를 찾기 위해 hive로 고생한 것 생각하면....ㅠㅠ

(출처 : blog.netflix.com)



hive보다 좋은  페이스북에서 SQL쿼리 엔진를 프레스토를 간략하게 소개한다.
https://prestodb.io/

설치 방법
https://prestodb.io/docs/current/installation/deployment.html
설치는 presto coordinator와 worker로 나눠서 설치한다.


프레스토 아키텍처로 좋은 그림은 딱 아래와 같다. 프레스토는 coordinator와 여러 대의 worker로 나누어진다. interface역할을 coordinator가 한다. 

( 출처 : http://labs.gree.jp/blog/2014/12/12838/)


프레스토의 내부 아키텍처는 다음과 같다. connector plugin을 이용하여 어떠한 storage도 붙을 수 있다. 

(출처 : slideshare)


써보니. Hive보다 진짜 빠르다. 대신 그 만큼 cpu와 메모리 자원을 많이 쓴다. 
worker는 정말 좋은 서버로 구축해야 하며, hadoop에도 cpu 자원을 많이 쓰니, 조금 sql 문에 신경써야 한다. 



presto 사용시 바로 hadoop 을 쓰는 것보다 presto에서 바로 쓸 수 있는 특정 파일시스템(ORC, Parquet)을 써야 성능이 잘 나온다고 한다. (실제로도 빠르다.)







아래는 공부하기에 좋은 자료. 

http://www.slideshare.net/frsyuki/presto-hadoop-conference-japan-2014
Presto - Hadoop Conference Japan 2014 from Sadayuki Furuhashi




http://pt.slideshare.net/GuorongLIANG/facebook-presto-presentation

Facebook Presto presentation from Guorong LIANG



https://code.facebook.com/posts/370832626374903/even-faster-data-at-the-speed-of-presto-orc/



http://techblog.netflix.com/2014/10/using-presto-in-our-big-data-platform.html




Posted by 김용환 '김용환'

댓글을 달아 주세요