엔터프라이즈 플랫폼을 위한 하둡의 현재 위치 및 발전 방향 (summary of Hadoop summit 2014)

This article is based on Hortonworks Partner Content and Expertise

이번 하둡 서밋 2014는 여러 가지 의미를 가지고 있습니다만 개인적으로는 드디더 하둡이 엔터프라이즈 데이터 허브로서 적용될 수 있는 프레임워크를 완성했다는 것에 두고 싶습니다.

먼저 호튼웍스의 키노트 영상을 먼저 보겠습니다.

다양한 사례들과 하둡의 향후 모습에 대해서 미리 엿볼 수 있습니다만 그 중에서도 뒤쪽에 있는 ‘Hadoop Innovation’이라는 부분에 주목을 하는 것이 좋을 듯 합니다.

하둡에 대해서 많은 얘기들이 나오고 있지만 아직은 하둡 1.0의 패러다임과 하둡 2.0의 새로운 진화가 공존하고 있는 상황으로 보입니다.
하둡 2.0이 ‘빅데이터 저장 및 관리’ 와 ‘빅데이터 처리’의 두 가지 관점에서 어떻게 변했고 앞으로 어떻게 변해갈 것인지 이해하는 부분이 중요해 보입니다.

더이상 하둡은 하둡파일시스템과 배치 처리를 위한 맵리듀스가 결합된 단일 목적의 빅데이터 처리 플랫폼이 아니라 다양한 어플리케이션이 공통의 저장 패러다임을 공유하면서 목적에 맞게 다양한 데이터 처리 방식을 수용하는 플랫폼이 되었다는 것에 대해 인사이트를 얻을 수 있을 것입니다.

hadoop_second

현재까지 진행된 상황을 한 페이지로 요약한 다이어그램입니다.

- 데이터 관리
- 데이터 접근(Access)
- 거버넌스(Governance) 와 연동 혹은 통합(Integration)
- 보안
- 운영 (Operations)

5가지의 핵심적인 요소들이 이 블로그에서 소개드린 다양한 에코시스템의 통합을 통해서 지원하는 수준으로 발전했습니다.

그리고 그 동안 하둡이 엔터프라이즈에 적용되면서 나왔던 니즈들을 어떻게 수용하게 되었는 지도 한 번 검토해 볼 필요가 있습니다.

hadoop_third

먼저 데이터 관리의 측면에서 하둡의 새로운 아키텍쳐가 어떻게 기업의 니즈를 수용했는 지에 대한 개요입니다.
그 동안 많은 요구가 있었던 안정성 측면에서 이른바 ‘FullStack HA’구성이 가능해 진 점과 멀티 데이터센터의 DR(Disaster Recovery)를 수용하게 되었다는 점에 주목하시면 좋을 듯 합니다.

hadoop-yarn

많은 기사를 통해서 소개드리고 있는 데이터 접근 측면의 변화입니다.
아마도 기존의 하둡의 접근과 완전히 달라졌기 때문에 혼란이 많이 있는 영역이지만 이제는 YARN(Yet Another Resource Negotiator)의 도입으로 기존에 맵리듀스의 배치처리 방식 뿐만 아니라 Batch, Interactive, Realtime, Streaming의 네가지 주요 데이터 처리 방식을 모두 지원하게 되었습니다.

YARN은 하둡 클러스터의 전체 리소스를 관리하는 시스템으로서 각 어플리케이션에 필요한 리소스를 할당하고 모니터링하는 업무에 집중함으로써 다양한 어플리케이션이 하둡 클러스터의 리소스를 공유할 수 있도록 탈바꿈하게 만든 핵심 요소입니다.

그 외에 기업 환경에 적용하는 데 핵심적인 보안 및 운영 관리의 측면에도 기업 니즈를 반영함으로써 엔터프라이즈 데이터 허브에 적합한 플랫폼을 갖추게 되었습니다.

hadoop-streaming

일례로 스톰(Storm) 어플리케이션이 YARN 위에서 돌아가면서 기존의 배치 처리와 상반되어 보이는 머신로그, 센서로그, 서버로그 등의 스트리밍 데이터를 실시간으로 처리하는 기반이 완성되었습니다.

저희도 많은 관심을 갖는 분야이고 지속적으로 소개해 드리고 있습니다.

hadoop-storage

그리고 기존의 하둡의 이미지라고 할 수 있는 로컬디스크가 달린 서버를 균등하게 연결하는 시스템도 기업의 니즈에 의해 변모했습니다.
바로 전의 기사에서 소개드린 것처럼 메모리, SSD 스토리지, 하드디스크 등의 기업 현장의 스토리지를 충분히 이용하는 방향으로 발전이 이루어 지고 있습니다.

hadoop-slide

하지만 가장 주목해야 할 부분은 바로 ‘Others’입니다.
한국에도 많은 기업용 솔루션을 기존에 개발한 회사들도 있고 운용 중이지만 이러한 솔루션을 어떻게 빅데이터를 처리할 수 있도록 할 것인가는 아주 실질적인 문제이고 중요한 문제입니다.

이제는 기존의 어플리케이션을 직접 하둡 클러스터에 적용되어서 빅데이터 솔루션으로 변모하기 위한 프레임워크인 슬라이드(Slide)의 발표가 있었습니다.
참고로 호튼웍스에서 NoSQL을 YARN에서 바로 동작하는 샘플을 발표했으니 함께 검토해 보시기 바랍니다.

전체적으로 빅데이터 시대를 위한 가장 비용 효율적이고 범용적인 플랫폼이 등장했다는 인사이트에 집중해서 보시면 좋을 듯 합니다.

———————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–