김용환 블로그(2004-2020) :: Map Reduce

Map Reduce

Architecture 2008. 5. 14. 21:25

구글의 검색 엔진의 기본 핵심이다.

functional langaue인 lisp에 영향을 받은것으로 보이며, 간단 명료하게 병렬 배취기능형태로 제공된 것으로 보인다.

홈페이지 및 출처는 다음과 같다.

http://labs.google.com/papers/mapreduce.html

MapReduce: Simplified Data Processing on Large Clusters
Jeffrey Dean and Sanjay Ghemawat

아주 간단한 input/output 프로그래밍 api를 가지고 있다.

map (in_key, in_value) -> list(out_key, intermediate_value)

reduce (out_key, list(intermediate_value)) -> list(out_value)

이런식으로 구글 소스 트리에 사용되는데. 계속 사용되고 있다..

실행에 대한 개념이다. 중간값이 만들어지고, 그룹된 Key에 의해서 그룹되어서 결과를 나오게 한다.

이를 이용해서 병렬처리는 다음과 하게 되어 있다.

좀더 쉽게 설명되면 다음과 같다. (출처 : http://www.joinc.co.kr/modules/moniwiki/wiki.php/JCvs/Search/Document/ManReduce?action=download&value=mapreduce.png)

자연스럽게 시간에 대한 pipe개념도 추가되어 있다.

또한 재실행하는 문제에 대한 문제까지도 고려하고 있다.

기본 데이터가 없어서 성능쪽은 비교대상이 없기 때문에 쉽게 말하기는 어려운 것 같다.

관련한 논문은 다음과 같다.

Programming model inspired by functional language primitives
Partitioning/shuffling similar to many large-scale sorting systems
- NOW-Sort ['97]
Re-execution for fault tolerance
- BAD-FS ['04] and TACC ['97]
Locality optimization has parallels with Active Disks/Diamond work
- Active Disks ['01], Diamond ['04]
Backup tasks similar to Eager Scheduling in Charlotte system
- Charlotte ['96]
Dynamic load balancing solves similar problem as River's distributed queues
- River ['99]

결론은 다음과 같이 내었는데..

. MapReduce has proven to be a useful abstraction

Greatly simplifies large-scale computations at Google

Fun to use: focus on problem, let library deal w/ messy details

추상적인 모델로서 증명되었고, 구글에서 큰 스케일의 계산을 심플화했고, 문제에 포커스를 가지도록 하고, 복잡한 것은 그냥 라이브러리에서 실행할 수 있도록 하였습니다.

참조자료.

http://ypshin.com/2690309

http://www.joinc.co.kr/modules/moniwiki/wiki.php/man/12/MapReduce

개인적으로 병렬처리를 하는 백엔드 worker, batch 작업에 써먹을 수 있는 형태로 보인다. 간략함으로서 사용자에게 편의를 제공하는 것으로 보인다.

Hadoop 은 바로 이 MapReduce를 구현하였다. http://hadoop.apache.org/core/

분산 파일 시스템 Hadoop가 MapReduce 를 구현했다고 보니. 많이 놀랬다.

자세한 것은 다음에.. ㅋ

참조 자료

http://hadoop.apache.org/core/docs/current/ Hadoop 위키 페이지

http://freesearch.pe.kr/893 속도 테스트

'Architecture' 카테고리의 다른 글

모니터링 솔루션 개발 완료 (0)	2009.08.06
티스토리 시스템 장애 관련 (0)	2009.04.17
네트워크 프로그래밍시 유의사항 (0)	2006.07.20
<img src="http://blogimgs.naver.com/nblog/ico_scrap01.gif" class="i_scrap" width="50" height="15" alt="본문스크랩" /> WSDL 상세 (0)	2006.05.12
공짜 라이브러리 (0)	2006.01.23

Posted by '김용환'

,

블로그 이미지

카카오 다니는 개발자 아저씨 '김용환'

카테고리

분류 전체보기 (4074)

scribbling (409)

golang (9)

Cloud (97)

nginx (13)

Apache Storm (2)

kafka (22)

Elasticsearch (140)

MQ (1)

Redis (37)

hbase (14)

mongodb (34)

hadoop (54)

mesos and marathon (12)

scala (273)

머신러닝_딥러닝 (4)

데이터 분석 (2)

cassandra (54)

erlang (6)

소셜동향 (20)

unix and linux (231)

go lang (25)

OS concept (12)

애자일 (4)

Ruby (39)

docker (49)

java core (237)

general java (269)

아두이노 (36)

안드로이드-iOS-Webkit (34)

nosql (94)

java libs (5)

Ansible-Puppet-Chef (44)

HTML5 (14)

컴파일러 (2)

레고 마인드스톰 NXT2.0 (20)

j2me (11)

Web service (143)

web (114)

Make (DIY) 소개 (9)

eclipse (23)

c or linux (213)

R (83)

Clouding (10)

java UI (9)

paper and essay (10)

svn (13)

etc tools (76)

c sharp (2)

c++ (6)

perl (18)

java script (28)

python (65)

DB (118)

general computer (4)

Tool (75)

Trend (47)

기술사 (10)

Architecture (13)

Digital TV (8)

Security (8)

Economics (30)

Chinese (7)

After reading book (60)

After reading article or pa.. (40)

철학 (28)

부동산 (8)

나의 경제 (19)

팁앤테크 (7)

프레젠테이션 (16)

신앙 (4)

디자인-아키텍쳐 (21)

내가좋아하는음악 (2)

오스틴Today'sWord (35)

영어앤영문권 (71)

영어찬양 (1)

여행수기 (20)

리더쉽 (36)

혁신 (12)

Embedded-임베디드 (5)

영화를 보고 (23)

좋은 흔적남기기 (21)

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

Total :
Today :
Yesterday :

티스토리 초대신청

티스토리툴바