Tags

호튼웍스 하둡과 오픈스택의 연동 아키텍쳐 (From Mirantis and Hortonworks)

This article is based on Hortonworks Partner Content and Mirantis

이전에 하둡과 오픈스택의 관리 체계를 통합하여 오픈스택에서 하둡 클러스터를 프러비저닝(Provisioning)하고 통합해서 관리하는 움직임에 대해서 소개해 드린 적이 있었습니다.

하둡과 오픈스택의 연동 로드맵

최근에 오픈스택의 커뮤니티와 하둡의 커뮤니티가 본격적으로 클라우드 환경에서의 하둡 데이터 플랫폼에 대한 프로젝트에 착수했고 이 프로젝트는 아파치에서 Savanna라는 형태로 구체화되고 있습니다.

물론 이론적으로 Bare-metal의 하드웨어 기반으로 설계된 하둡이 가상화 환경(Virtualization)에 적합한 것인가에 대한 논의는 많이 있었고 다양한 결론이 도출되었지만 기본적으로는 성능면에서 큰 메리트를 얻을 수 없다는 것이 가설이었습니다.
하둡 클러스터와 가상화에 대해서는 다른 많은 전문적인 텍스트를 참조하시면 되겠습니다.

하지만 현실적으로 대규모의 하둡 클러스터를 기업이 투자하는 과정은 많은 중간 단계를 거쳐서 이루어 지고 있다는 점에도 주목해야 할 것입니다.
대규모의 빅데이터 프로젝트가 한 번의 결정으로 기업의 데이터센터 내부에 하둡 클러스터를 대규모로 구축하는 경우는 아주 드물고, 실제로는 Poc를 거치고 단위 작업에 대한 Test/Evaluation을 몇 번 거친 이후에 기업 환경에 구축이 됩니다.

이러한 Poc, Test/Evaluation 단계를 신속하게 진행하기 위해서 많은 기업들이 클라우드 환경에서 테스트용 하둡 클러스터를 구축하고자 하는 니즈는 많이 표출되고 있습니다.

그리고 점차 기업 내부의 데이터센터를 클라우드 환경으로 구축하는 과정에서 하둡 시스템도 통합해서 관리하고자 하는 니즈도 점차로 커지고 있습니다.

그래서 Mirantis, Hortonworks와 같은 기업들을 중심으로 오픈스택과 하둡의 최적화된 관리 방법을 모색하자는 프로젝트가 Savanna로 모아지고 있습니다.

savanna-architecture

이것은 Savana의 아키텍쳐를 개념적으로 설명하는 다이어그램입니다.
핵심적인 컴포넌트에 대해서 간단히 소개드리겠습니다.

Cluster Configuration Manager
오픈스택을 통해서 프로비져닝(Provisioning)하는 하둡 클러스터에 대한 제반 설정 정보 등을 관리하는 핵심적인 컴포넌트입니다.
이 컴포넌트는 사용자로부터 혹은 클라이언트로부터 받은 하둡 클러스터에 대한 정보를 바탕으로 ‘VM Provisioing’ 혹은 별도의 ‘Deployment Engine’을 통해서 각 역할을 가진 하둡 에코 시스템의 구성 요소를 설치하게 됩니다.

Auth component
이 컴포넌트는 클라이언트의 인증과 권한 관리를 하는 모듈로서 기존 오픈스택의 Key Stone 컴포넌트와 연동해서 진행하는 것도 가능합니다.

DAL – Data Access Layer
하둡 클러스터를 위한 내부 모델을 데이터베이스에 저장하는 기능입니다.

VM Provisioning
이 컴포넌트가 오픈스택의 Nova와 Glance와 통신해서 실행하는 역할을 담당합니다.

Deployment Engine
일종의 플로그인 구조로 되어 있어서 기존 아파치의 Ambari 혹은 다른 관리 콘솔을 통해서 하둡 클러스터를 관리할 수 있도록 되어 있습니다.

REST API – exposes Savanna functionality via REST

openstack-interop

Savana는 기존의 하둡 클러스터 관리 솔루션을 자유롭게 ‘Deployment Engine’으로 활용할 수 있는 데 초점을 맞추고 있고 하둡 클러스터의 VM 이미지를 오픈스택의 Glacier를 이용하는 등의 방법으로 오픈스택과의 원활한 연동을 보장하고 있습니다.

저희 회사가 미란티스 및 호튼웍스와 파트너쉽을 가지고 있어서 Hadoop on Cloud는 관심을 많이 가지고 연구하고 있는 주제입니다.
아직 성능이라는 측면과 관리의 용이성, 마이그레이션 등의 다양한 영역에서 보완되어야 할 것이 많은 분야입니다.

그래서 별도로 오픈스택과의 연동 로드맵을 발표하여 향후에 지속적으로 진화시켜나가고 있는 프로젝트입니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

하둡과 오픈스택 연동에 대한 로드맵(A Roadmap for Hadoop and OpenStack Integration)

This article is based on Hortonworks Blog

이 주제는 저희 회사에서도 많은 관심을 가지고 연구하고 있는 부분입니다.
기업의 기본 IT 인프라스트럭쳐(Infrastructure)로서 오픈스택(OpenStack)기반의 클라우드 환경이 점차 많은 기업들에게 받아들여지고 있는 시점이기 때문에 하둡 클러스터도 오픈스택과 같은 클라우드 기반 환경에서 연동되고 통합되는 노력은 점차 중요한 주제가 될 것으로 봅니다.

최근에 오픈스택 파운데이션(OpenStack Foundation)에서 진행한 조사에 따르면 엔터프라이즈에서 오픈스택이 중요한 인프러스트럭쳐로 자리매김하고 있는 트렌드를 엿볼 수 있습니다.

가장 중요한 이유는 역시 비용 절감(Cost Savings)과 운영 효율성(Operational Efficiency)를 꼽을 수 있겠습니다.
그 중에서도 오픈스택에서 운영되는 시스템 중에 하둡이 8위에 점은 많은 것을 시사하고 있습니다.

아마도 하둡은 가장 최근에 기업에 도입되는 시스템이기 때문에 레거시 환경으로부터 비교적 자유로워서 클라우드 환경으로 이전하는 데 있어서 제약이 적다는 점이 큰 이유가 아닐까 생각합니다.

하둡 클러스터는 데이터 소스가 늘어나고 데이터 볼륨이 커짐에 따라서 그 시스템을 관리하기 위한 비용과 노력이 많이 투입이 되어야 합니다.
특히, Test/Evaluation 단계에서는 오픈스택을 통해서 필요한 리소스를 유연하게 처리하는 것은 매끄러운 해결책이 될 것입니다.

그래서 하둡과 오픈스택에 대한 연동에 대해서 로드맵을 만들고 있고 공개가 되었습니다.
호튼웍스와 오픈스택의 연동에 대한 로드맵 <-- 클릭

특히, 대규모로 하둡 클러스터를 구축하기 전에 이루어지는 poC(Proof of Concept) 단계와 핵심 문제에 대해서 구축 테스트를 실행해 보는 Test/Evaluation 단계에서는 오픈스택을 통한 신속한 구축이 많은 장점을 가질 것으로 봅니다.

-----------------------------------------------------------------------------------------------------------
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–