하둡 서밋 2014를 통해 본 하둡의 로드맵 (Hadoop summit 2014 comment)

This article is based on Hortonworks Partner Content and Expertise

올해의 Hadoop summit 행사는 하둡이 엔터프라이즈 데이터 허브로 자리매김하는 데 필요한 플랫폼을 드디어 완비했다라고 하는 부분을 알리는 것으로 요약된다고 생각합니다.
마침 생중계를 해 주어서 아주 관심을 가지고 지켜 본 행사이고 데이터 허브로서의 하둡에 대한 위상과 가치에 대해서 다시 생각해 보는 계기가 되었습니다.

먼저 호튼웍스 SVP의 인터뷰 영상을 소개드립니다.

잠깐 하둡이라는 틀을 버리고 큰 관점에서 바라 보면 대부분의 기업용 시스템의 진화는 데이터를 어떻게 효율적으로 처리할 것인가에 대한 노력이었다고 보고 싶습니다.

기업이 어떤 데이터 소스의 어떤 데이터셋을 어떤 방식으로 처리하는 가에 대한 수많은 방법들이 개별적으로 진화해 왔다고 볼 수 있습니다.

Structured, Semi-Structured, Unstructured 등으로 나눌 수 있는 데이터셋의 다양한 속성에 맞게 관계형 데이터베이스 부터 최근의 NoSql 그리고 맵리듀스 등이 개별적으로 진화해 왔습니다.

데이터를 어떤 방식으로 처리할 것인가의 니즈도 한 달에 한 번 혹은 몇 주에 한 번 배치 작업을 하는 지, 아니면 필요한 때 필요한 데이터에 대해 쿼리를 던져서 결과를 얻을 것인지, 그리고 실시간으로 스트리밍 데이터를 처리해야 하는 부분까지 각 다양한 방식에 따라서 데이터웨어하우스 부터 각종 로그분석시스템까지 진화를 해 왔습니다.

하지만 최근에 이른바 데이터 빅뱅(Data Bigbang)을 가장 먼저 경험한 구글, 야후 등의 인터넷 기업들을 중심으로 이러한 다양한 데이터셋을 다양한 방식으로 처리할 수 있는 공통의 프레임워크를 가질 수 없는가에 대한 논의가 시작이 되었습니다.

그래서 여러 커뮤니티의 협업과 기업들의 노력으로 현재 시점에서 아래와 같이 하나의 프레임워크를 통해서 모든 데이터 형태 및 유스케이스를 커버할 수 있는 데이터 처리 플랫폼으로서의 하둡이 점차 현실화되고 있습니다.

slider

간단한 다이어그램이지만 많은 의미를 함축하고 있습니다.
이미 여러 기사를 통해서 YARN(Yet Another Resource Negotiator)에 대해서 설명을 드렸지만 비로소 하둡 클러스터에서 다양한 데이터 처리 어플리케이션이 공존할 수 있는 기반이 만들어 지면서 데이터 처리 공통 플랫폼으로서의 하둡이 이른바 데이터 허브로서 기업의 핵심 시스템으로 자리잡을 수 있게 되었습니다.

YARN에 대해서는 다음 기사들을 참조하세요.
기존의 어플리케이션을 YARN 기반으로 전환하는 방법
하둡 2.0 YARN의 컨셉과 적용 방법
하둡 YARN 클러스터에서 Spark application을 실행하는 모델

기업에 도입되어서 실제적으로 기존 시스템과 협업하여 데이터 허브의 역할을 하는 하둡은 이미 가능한가 불가능한가 혹은 성능이나 확장성에 문제가 있는 지 없는 지 등의 논의를 넘어서 이제 하나의 공통 데이터 플랫폼으로 그 로드맵을 확실히 잡았다고 보여 집니다.

빅데이터의 활용을 위한 목적의식과 목표만 확고하게 있다면 기술적 기반의 문제는 점차 사라지고 있다는 것이 이번 하둡 서밋의 요약된 메시지가 아닌가 싶습니다.

———————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–