기존의 어플리케이션을 하둡 YARN 기반으로 손쉽게 전환하는 방법 (Apache Slide technical preview)

This article is based on Hortonworks Partner Content and Expertise

하둡에서 YARN이 도입이 되는 것이 어떤 의미인지는 그 동안 다른 기사들을 통해서 많이 소개드리고 있습니다.
하둡 2.0 YARN의 컨셉에 대한 검토와 도입 방법
현 시점에서 하둡 2.0을 도입해야 할 필요가 있는가?
하둡 YARN 기반으로 Spark 어플리케이션을 도입하는 방법

하둡의 YARN은 하둡 클러스터의 전체 리소스를 관리하는 기능을 담당하고 각 어플리케이션은 별도로 Application Master를 통해서 관리하도록 분리시키는 방법으로 하둡 위에서 다양한 처리 방식을 지원하는 어플리케이션을 개발할 수 있는 기반을 제공합니다.

즉, 각 어플리케이션은 YARN의 리소스 매니저에게 필요한 리소스를 할당받은 이후에 어플리케이션을 실행하는 방법으로 하나의 클러스터에서 다양한 어플리케이션을 운용할 수 있는 아키텍쳐를 가능하게 했습니다.

YARN 아키텍쳐에서 현재 어떤 형태의 데이터 처리 방식이 가능한 지 다이어그램을 보겠습니다.

slider

하둡의 에코시스템을 시스템, 엔진, API라는 세 가지 틀로 단순화시키면 위의 다잉어그램에서 보는 것과 같은 형태로 파악할 수 있습니다.

하둡파일시스템의 위에 YARN이 하둡 클러스터의 리소스를 담당하고 그 위에 배치 작업인지 SQL문을 실행시키는 방식인지 아니면 스트리밍 데이터를 실시간으로 처리하는 방식인지에 따라서 일종의 플랫폼이라고 할 수 있는 세 가지 엔진이 그 위에서 돌아갑니다.

이 세 가지 엔진 중에서 물론 맵리듀스와 같은 배치 처리 엔진이나 Tez와 같이 인터랙티브 쿼리(Interactive Query)를 실행하는 부분은 소개를 드렸지만 실시간 처리에 대한 슬라이드(Slide)에 대해서는 생소할 겁니다.

그 동안 스트리밍에 대해서는 스톰(Storm)을 직접 이용하는 형태로 도입이 이루어졌지만 점차 NoSQL의 연동을 통한 실시간 처리에 대한 수요가 부각되면서 비교적 최근에 하둡 에코시스템에 도입이 되었습니다.

그 외에도 YARN의 기능을 이용하는 다양한 어플리케이션을 손쉽게 개발하기 위한 방법이 필요하다는 니즈가 커지면서 본격적으로 그 효용성이 받아들여 지고 있습니다.

아파치 슬라이드(Slide)는 한 마디로 기존에 YARN 환경을 고려하지 않고 개발된 분산 어플리케이션을 YARN 환경에서 돌아갈 수 있도록 해 주는 플랫폼입니다.

아파치 슬라이드(Slide)는 호튼웍스에서 다음 네 가지 목표에 초점을 두고 프로젝트화한 플랫폼입니다.

Simplified on-boarding of existing apps to Hadoop YARN
그 동안 기업에서 많은 분산 어플리케이션을 개발해 왔는 데 이러한 어플리케이션을 거의 코드를 재수정하지 않고도 YARN에서 운용할 수 있도록 해 줍니다.

Full capabilities of a YARN application
아파치 슬라이드(Slide)는 어플리케이션이 론칭되고 모니터링하고 데이터 처리 수요에 따라 하둡 클러스터에서 확장되는 등의 많은 업무를 처리하는 플랫폼을 제공하여 분산 어플리케이션을 개발하는 업무에 집중할 수 있는 장점이 있습니다.

Automated lifecycle management
아파치 슬라이드(Slide)는 YARN상의 어플리케이션을 암바리와 연동하여 관리할 수 있는 옵션을 제공합니다.

호튼웍스에서 HBase, Accumulo, Storm의 세 가지에 대해서 슬라이드와 연동해서 운영할 수 있는 샘플을 제공하고 있으니 자세한 사항은 이 부분을 참조해 주시기 바랍니다.

기존의 분산 어플리케이션을 슬라이드를 이용해서 연동하기 위한 방법

이 링크에서 실제로 YARN에서 돌아가는 세 가지 어플리케이션의 버전을 직접 다운로드할 수 있습니다.

기존에 기업들이 개발해 온 많은 데이터 처리 어플리케이션을 하둡 위에서 운용하기 위한 부분은 아주 중요한 영역이지만 많은 노력이 필요로 합니다.

아직은 인큐베이팅 프로젝트이지만 슬라이드(Slide)가 가진 가능성은 아주 크다고 생각합니다.

아래 Technical Preview 문서를 참조해서 직접 샘플을 돌려 보시고 기존의 어플리케이션을 어떻게 하둡과 연동할 지에 대한 방법도 함께 고려하면 좋을 듯 합니다.

Apache Slide Technical Preview <-- 클릭

아파치 슬라이드의 도입과 더불어서 많은 기업용 어플리케이션들이 하둡과 연동해서 빅데이터 어플리케이션으로 효용성을 높힐 수 있는 계기가 되었으면 합니다.

-----------------------------------------------------------------------------------------------------------
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–