몽고 DB와 하둡의 연동 모델 (Mongo DB hadoop connector)

This article is based on Hortonworks Partner Content and Expertise
그 동안 여러 가지 엔터프라이즈 솔루션과 하둡과의 연동 모델에 대해서 소개를 해 드렸습니다.
하둡이 가진 ‘데이터 글루’ 혹은 ‘데이터 통합’의 가능성에 대한 좋은 실례들이라고 할 수 있겠습니다.

하둡 2.0으로 넘어 오면서 데이터를 처리하는 상이한 유스케이스에 맞게 다양한 어플리케이션들이 연동이 되면서 기업의 다양한 데이터를 수용할 수 있는 저장 방법은 물론이고 처리 방법에 대해서도 통합적인 관점을 제시하고 있습니다.

하지만, 근본적으로 데이터베이스와 하둡 사이에는 간극이 존재합니다.
그 이유는 하둡의 문제점이라기 보다는 대용량의 파일을 읽어서 합리적인 시간 내에 분석한다는 하둡의 기본 철학 때문에 발생합니다.

그래서 기존의 데이터베이스와 하둡을 연동해서 양 쪽의 장점을 취하는 방법은 여러 가지 방법으로 접근이 이루어 지고 있습니다.
물론 SQL in Hadoop 혹은 SQL on Hadoop 등 하둡에서 부터 수용을 해 나가는 여러 가지 프로젝트들이 있습니다.

최근에는 이미 안정된 noSQL 기반의 기술과 하둡을 연동하면 보다 더 다양한 유스케이스를 지원할 수 있다는 점에서 몽고 DB 등과 하둡을 연동해서 최적화 하기 위한 방법들이 많이 소개되고 있습니다.

몽고 DB는 이미 다양한 기업에서 검증이 되고 있는 오픈소스 기반의 NoSQL이고 바로 얼마 전에 호튼웍스와의 공동 노력으로 보다 안정된 방법으로 연동이 가능해 졌습니다.
‘MongoDB Hadoop Connector on Hortonworks’라는 솔루션을 통해서 보다 간편하게 하둡과 연동 모델을 만드는 것이 가능해 졌습니다.

reference_mongodb_arch

이 연동 모델을 검토해 보면 몽고 DB는 결론적으로 ‘실시간 Operational Database’의 역할에 집중해서 하둡으로 이러한 유스케이스를 처리하기 위한 오버헤드를 제거할 수 있습니다.
이 모델에서 하둡의 역할은 몽고 DB를 통해서 실시간으로 처리한 데이터들을 가지고 다양한 분석을 하는 형태로 지원 기능을 담당하도록 구성할 수 있습니다.

실제로 기업에 하둡을 적용하는 데 있어서 가장 어려운 부분이 이러한 ‘실시간 트랜잭션 데이타’에 대한 부분인데 하둡을 통해서 이 기능까지 수용하려는 노력보다는 몽고 DB를 연동함으로써 보다 효율적으로 대응할 수 있을 것입니다.

이 모델에서 몽고 DB의 데이터는 바로 호튼웍스 하둡 플랫폼으로 스냅샷되어서 ‘Near realtime’ 분석을 가능하게 해 줍니다.
역으로 이렇게 분석된 데이터는 다시 몽고 DB로 보내져서 다른 트랙잭션에 활용할 수 있습니다.

보다 자세한 사항은 아래 문서를 참조하세요.
Mongo DB Hadoop Connector Documentation

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–