2013. 9. 12. 20:45
Big Data
몽고디비를 하둡의 Input/Output의 Store를 사용하면 어떨까? 어차피 몽고디비는 Document Store 이며 Scale-Out을 위한 무한한 Sharding(RDB의 Partitioning) 환경을 제공하니 충분히 사용할 수 있을 것이다. Store에 저장된 데이터의 Batch Processing Engine으로 하둡을 사용하면 될 일이다.
Mongo-Hadoop Connector 소개
- Hadoop을 통하면 Mongo안에 있는 데이터를 전체 코어를 사용하면서 병렬로 처리할 수 있다
- 하둡포멧으로 Mongo를 BSON format을 파일로 저장하거나, MongoDB에 바로 저장할 수 있는 Java API존재
- Pig + Hive를 사용할 수 있음
- AWS의 Amazon Elastic MapReduce 사용
Batch Processing Model 종류
- 사실 MongoDB에서도 Aggregation Framework을 제공하여 MapReduce프로그래밍을 JavaScript로 개발 적용할 수 있다다
- 시간단위 Batch Processing은 요렇게도 사용할 수 있겠다
- 데이터가 정말 Big 이면 하둡을 이용하여 Batch Processing을 해야겠다. 여기서 몽고디비를 "Raw Data Store" 와 "Result Data Store"로 사용한다
- MongoDB & Hadoop : Batch Processing Model 전체 내역을 보자
<참조>
- 결국 처리된 데이터는 표현되어야 한다 : Data Visualization Resources
- MongoDB 넌 뭐니? NoSQL에 대한 이야기 (조대협)
'Big Data' 카테고리의 다른 글
[RethinkDB] 시작하기 (0) | 2017.04.11 |
---|---|
[Hadoop] MapReduce 직접 .jar 파일로 수행하기 (0) | 2013.09.11 |
[Hadoop] Eclipse에서 Maven으로 하둡 코딩하기 (2) | 2013.09.09 |
[Hadoop] 개념이해 및 설치하기 (2) | 2013.09.09 |