http://developer.yahoo.com/blogs/hadoop/posts/2010/08/apache_hadoop_best_practices_a/



Apache Hadoop : Best practices 와 Anti-Patterns

– Yahoo Hadoop팀의 기획자인 Arun C Murthy는 야후 개발자 블로그를 통해 잘 작성된 하둡 어플리케이션의 특성과 하둡 프레임워크를 잘 이용하기 위한 가이드와 함께 어플리케이션의 잘못 작성된 패턴도 간략히 공개.

그리드 환경에서 동작하는 어플리케이션의 패턴 중심으로 설명하였으며 주요 내용은 다음과 같다.

1. HDFS 파일 블럭 사이즈보다 작은 수천개의 파일을 하나의 맵 프로세스에서 처리하지 말 것.

2. 수초의 동작 시간을 가지는 수천개의 맵을 만들지 말 것.

3. 맵을 6,7만개 이상 만들지 말 것.

4. 큰 데이터 셋이 있을때 소수의 리듀스만 지정하지 말 것.

5. 태스크마다 수십 수백개의 카운터를 사용하지 말 것.

 

 

Posted by '김용환'
,