Tags

하둡 YARN 클러스터에서 Spark Application을 실행하는 모델 (Hadoop Yarn and Spark App model)

This article is based on Hortonworks Partner Content and Expertise

하둡 2.0의 리소스 관리 플랫폼이라고 할 수 있는 YARN(Yet Another Resource Negotiator)에 대해서는 여러 기사에서 소개를 드렸습니다.

하둡 2.0 YARN의 컨셉에 대한 검토와 적용방법
현대적인 하둡 아키텍쳐의 구성요소와 역할

일반적으로 하둡을 경험하면 하둡파일시스템(HDFS)와 맵리듀스(MapReduce)의 패러다임에서 생각을 하게 됩니다만 하둡 2.0에서 YARN의 컨셉이 적용되면서 맵리듀스도 많은 다양한 데이터 처리 방식 중의 하나로 받아들여 지게 되었습니다.
현재 맵리듀스 어플리케이션 다음으로 많이 적용되는 데이터 처리 방식이 스파크(Spark)가 아닐까 싶습니다.

바로 얼마전에 드디어 Spark 1.0이 발표가 되면서 비로소 기업 현장에서 적용할 수준으로 안정화가 되었다는 기대감을 갖게 됩니다.
스파크(Spark)는 맵리듀스가 가진 퍼포먼스에 대한 약점을 보완하는 가장 현실적인 방법으로 받아들여 지고 있지만 제대로 적용하기 위해서는 맵리듀스와의 차이점에 대해서 확실히 할 필요가 있습니다.

그 중에서 하둡 클러스터에서 적용하는 단계에서 가장 현실적인 차이점을 알아 보겠습니다.
간단히 요약하자면, 맵리듀스는 잡(Job)이 하나의 큰 단위로서 인풋 데이터를 받아서 Map task와 Reduce task를 실행시켜서 결과를 저장하는 흐름입니다.
스파크(Spark)는 물론 잡이라는 개념을 사용하고 있지만 많은 잡들을 순차적으로 혹은 병렬적으로 실행시키는 어플리케이션(Application)이라는 상위 단위를 가지고 있습니다.
이 부분은 많은 의미를 가지고 있고 YARN과의 연동 지점에서도 큰 의미를 가지고 있습니다.

“SQL문을 HIVE를 통해서 맵리듀스 잡으로 변환하여 처리하는 경우에 스파크를 사용하면 연관이 있는 잡들을 순차적 때로는 병렬적으로 실행시켜서 성능을 획기적으로 향상시킨다.”
아주 단순하게 얘기하자면 이렇게 요약할 수 있겠습니다.
이 부분을 기술적으로 이해하기 위해서는 DAG 처리 알고리즘에 대한 다른 문서들을 참조하시기 바랍니다.

간단한 스파크 어플리케이션의 구조를 살펴보겠습니다.

spark

스파크 어플리케이션의 본질은 SparkContext 클래스의 인스터스로 보면 됩니다.
물론 어플리케이션은 하나의 잡을 실행시켜서 맵리듀스와 동일한 동작을 하는 형태로도 이용가능하지만 그 힘은 잡을 실행시키고 있지 않더라도 독자적으로 실행되고 있는 ‘Executors’라는 요소에 있습니다.
이 구조를 통해서 데이터를 미리 메모리에 집적시켜서 처리하거나 여러 가지 잡을 실행할 수 있는 기반을 제공합니다.

아키텍쳐에서 보면 두 개의 잡이 있지만 각각 Executor에서 태스크들을 병렬적으로 실행할 수 있는 구조라는 점을 보여 줍니다.
위 다이어그램에서 스파크 드라이버(Spark Driver)는 맵리듀스의 잡트래커처럼 잡과 태스크를 분배하고 매니징하는 프로세스로 이해하시면 됩니다.

맵리듀스에서의 태스크는 각자 프로세스에서 돌아가고 태스크가 종료되면 프로세스도 종료되지만 스파크 구조에서는 하나의 프로세스에서 여러 개의 태스크를 실행할 수 있음으로써 성능을 향상시키고 보다 복잡한 데이터 처리를 할 수 있는 유연성을 제공한다는 점이 가장 큰 차이점입니다.

그러면 이러한 스파크 어플리케이션을 YARN 클러스터에서 어떻게 구현하고 있는 지 핵심적인 모델을 살펴보도록 하겠습니다.

yarnspark

YARN은 일종의 하둡 클러스트의 리소스를 전체적으로 관리하는 리소스 매니저라는 부분을 통해서 이 아키텍쳐를 보면 앞에서 설명했던 ‘Executors’는 YARN의 컨테이너로서 동작한다는 것을 이해할 수 있습니다.

맵리듀스가 YARN의 컨테이너에서 각 태스크마다 별도의 JVM을 실행시키는 것과 달리 스파크는 하나의 컨테이너에서 여러 개의 태스크를 실행하고 태스크가 종료되더라도 남아 있다라는 차이를 다시 한 번 생각해 볼 필요가 있습니다.

스파크 어플리케이션이 YARN에서 실행되면 먼저 어플리케이션 매스터(Application Master) 프로세스가 생성이 되는 데 이것이 바로 Spark Driver를 실행하는 컨테이너가 됩니다.
그리고 이 Spark Driver가 YARN의 리소스 매니저와 협상하여 이 어플리케이션을 실행하기 위한 리소스를 받아냅니다.
리소스를 받아내면 YARN 노드 매니저(Node Manager)에게 Spark Executor를 실행하기 위한 컨테이너를 생성하도록 지시합니다.
이 후에 이 Spark Executor가 태스크들을 할당받아서 실제로 태스크를 수행하는 프로세스입니다.

스파크에 대한 자세한 설명은 다음 문서를 참조하시기 바랍니다.
Spark Documentation <-- 다운로드

실제로 스파크는 성능 및 유연성에서 맵리듀스보다 구조적으로 월등하기 때문에 특히 SQL구문을 통해서 결과를 바로 얻어내기 위한 시나리오에서는 맵리듀스보다 탁월합니다.
그리고 자체적으로 맵리듀스의 기능도 포함하기 때문에 앞으로는 보다 더 많은 분야에 활용될 것으로 기대가 되고 있습니다.

하지만 스파크 어플리케이션을 YARN 클러스터에서 세팅하고 운영하는 부분은 아직 쉽지 않습니다.
호튼웍스 데이터 플랫폼은 이러한 스파크 어플리케이션을 위해 클러스터를 세팅하고 운영하는 부분을 직관적으로 하기 위해서 배포판에 통합하여 제공하고 있으니 실제 도입 시에는 통합 테스트가 된 배포판을 이용함으로써 많은 시행착오를 줄일 수 있을 것입니다.

앞으로는 Spark Application을 어떻게 활용할 것인지를 중심으로 소개드리도록 하겠습니다.

-----------------------------------------------------------------------------------------------------------------------------
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

몽고 DB와 하둡의 연동 모델 (Mongo DB hadoop connector)

This article is based on Hortonworks Partner Content and Expertise
그 동안 여러 가지 엔터프라이즈 솔루션과 하둡과의 연동 모델에 대해서 소개를 해 드렸습니다.
하둡이 가진 ‘데이터 글루’ 혹은 ‘데이터 통합’의 가능성에 대한 좋은 실례들이라고 할 수 있겠습니다.

하둡 2.0으로 넘어 오면서 데이터를 처리하는 상이한 유스케이스에 맞게 다양한 어플리케이션들이 연동이 되면서 기업의 다양한 데이터를 수용할 수 있는 저장 방법은 물론이고 처리 방법에 대해서도 통합적인 관점을 제시하고 있습니다.

하지만, 근본적으로 데이터베이스와 하둡 사이에는 간극이 존재합니다.
그 이유는 하둡의 문제점이라기 보다는 대용량의 파일을 읽어서 합리적인 시간 내에 분석한다는 하둡의 기본 철학 때문에 발생합니다.

그래서 기존의 데이터베이스와 하둡을 연동해서 양 쪽의 장점을 취하는 방법은 여러 가지 방법으로 접근이 이루어 지고 있습니다.
물론 SQL in Hadoop 혹은 SQL on Hadoop 등 하둡에서 부터 수용을 해 나가는 여러 가지 프로젝트들이 있습니다.

최근에는 이미 안정된 noSQL 기반의 기술과 하둡을 연동하면 보다 더 다양한 유스케이스를 지원할 수 있다는 점에서 몽고 DB 등과 하둡을 연동해서 최적화 하기 위한 방법들이 많이 소개되고 있습니다.

몽고 DB는 이미 다양한 기업에서 검증이 되고 있는 오픈소스 기반의 NoSQL이고 바로 얼마 전에 호튼웍스와의 공동 노력으로 보다 안정된 방법으로 연동이 가능해 졌습니다.
‘MongoDB Hadoop Connector on Hortonworks’라는 솔루션을 통해서 보다 간편하게 하둡과 연동 모델을 만드는 것이 가능해 졌습니다.

reference_mongodb_arch

이 연동 모델을 검토해 보면 몽고 DB는 결론적으로 ‘실시간 Operational Database’의 역할에 집중해서 하둡으로 이러한 유스케이스를 처리하기 위한 오버헤드를 제거할 수 있습니다.
이 모델에서 하둡의 역할은 몽고 DB를 통해서 실시간으로 처리한 데이터들을 가지고 다양한 분석을 하는 형태로 지원 기능을 담당하도록 구성할 수 있습니다.

실제로 기업에 하둡을 적용하는 데 있어서 가장 어려운 부분이 이러한 ‘실시간 트랜잭션 데이타’에 대한 부분인데 하둡을 통해서 이 기능까지 수용하려는 노력보다는 몽고 DB를 연동함으로써 보다 효율적으로 대응할 수 있을 것입니다.

이 모델에서 몽고 DB의 데이터는 바로 호튼웍스 하둡 플랫폼으로 스냅샷되어서 ‘Near realtime’ 분석을 가능하게 해 줍니다.
역으로 이렇게 분석된 데이터는 다시 몽고 DB로 보내져서 다른 트랙잭션에 활용할 수 있습니다.

보다 자세한 사항은 아래 문서를 참조하세요.
Mongo DB Hadoop Connector Documentation

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

엔터프라이즈 하둡 및 “Data Lake”(Enterprise Hadoop and the Journey to a Data Lake

This article is based on Hortonworks Partner Content and Expertise

저의 고객과의 상호 작용이 저를 가르쳤다 한 가지가 있다면, 그것은 아파치 하둡은 데이터 센터를 파괴하지 않았지만 데이터는 그랬다는 것입니다. 최근 몇년 동안 새로운 유형의 데이터 폭발은 기술적으로도 경제적으로 데이터 센터에 큰 압력을 가하고 있으며, 엔터프라이즈 하둡은 결과의 현대 데이터 아키텍처의 역할은 점점 중요해 지고 있습니다.

다운로드: 하둡과 현대 데이터 아키텍처.

성공적인 Hadoop 여행은 일반적으로 “data lake”로 이어지는 새로운 분석 응용 프로그램에서 시작됩니다. 점점 더 많은 응용 프로그램은 데이터의 센서 / 기계 , 서버 로그 , 클릭 스트림 , 및 기타 소스 의 새로운 유형에서 가치를 이끌어 낼 수 있도록 합니다. Hadoop이 가지는 데이터 호수 모양으로 크고 광범위한간에 깊은 통찰력을 제공하는 공유 서비스로 실행하는 기존 엔터프라이즈 시스템과 도구와 통합하여 데이터의 호수 여행을 보완 할 수있는 방법으로 데이터가 다양합니다.

08

하둡과 기존 데이터 시스템 : 현대 데이터 아키텍처

그것은 데이터의 저장과 처리를 저렴한 비용으로 확장 접근을 제공하고, 세계에서 가장 큰 웹 속성의 요구에 확장이 증명되고 있기 때문에 기존의 데이터 시스템을 보완은 Hadoop을 사용하는 것은 매우 설득력이있습니다.

01

하둡과 “읽기에 대한 스키마”의 가치

그것도 데이터베이스에 로드 하기 전에 지정된 구조 ( 또는 스키마 ) 로 변환 하는 데이터를 필요로하고 기존의 관계형 데이터베이스 와 달리 Hadoop 은 분석가와 개발자는 다음 의 요구에 맞춘 구조 을 적용 할 수 있으며, 그 원시 형식으로 데이터를 저장 하기에 초점 을 맞추고 그들은 데이터에 액세스 할 때에는 자신의 애플리케이션에 이상적입니다 . Hadoop 의 ” 스키마 보기 설정 “접근은 즉시 어떤 형식으로 데이터를 저장하고 필요할 때 매우 유연하고 적시에 배치 · 구조를 적용 하기 위해 사용자에게 권한을 주는 반면 기존 의 ” 스키마 온 라이트 ‘ 의 접근 방식은 더 많은 전망과 IT 의 개입을 필요로 합니다.

 

예를 들어, 기존의 응용 프로그램은 그것이 고객 상호 작용의 단일 뷰를 얻으려면, 클릭 스트림 데이터 및 CRM 데이터를 결합하여 존재 하고 있다고 가정합니다. 새로운 유형의 데이터를 사용할 수있게되면 , 그것은 데이터를 쉽게 고객의 뷰를 풍부하게하기 위하여 추가 될 수 있습니다 ( 예 : 서버 로그 나 감정 데이터 ) 관련 될 수 있습니다. 키의 구분 은 데이터가 저장되어 있을 때 , 그것은 특정 응용 프로그램 에서 그 구조와 연결을 선언 할 필요가 없습니다.

하둡 여행은 일반적으로 새 분석의 응용 프로그램과 함께 시작 …

Hadoop의 사용량은 일반적으로 이전에 캡처되지 않은 데이터를 연료로하는 새로운 분석 응용 프로그램을 만드는 것부터 시작합니다. 응용 프로그램은 특정 산업이나 조직에만 경향이 있지만, 관련 데이터의 특정 유형의 렌즈를 통해 이러한 응용 프로그램의 많은 유사점이 있습니다.

산업에 걸쳐 분석 애플리케이션의 예는 다음과 같습니다 :

07

… 데이터 호수로 이어질

Hadoop은 다른 데이터 소스를 사용하는 응용 프로그램의 범위와 규모의 지속적인 성장과 엔터프라이즈 Data Lake의 비전을 구체화 하기 시작합니다. 내부 및 외부 데이터 소스를 포함한 여러 사일로 에서 데이터를 결합하여 당신의 조직은 모두 미리 듣고 어떻게 알았으며 복잡한 질문에 대한 답변을 찾을 수 있습니다.
예를들어, 연간 1억대의 고객 상호 작용에 대한 대규모 미국의 홈 센터의 데이터는 다양한 마케팅 캠페인 및 온라인 고객 브라우징 동작과 트랜잭션 데이터를 상호 연관에서 기업을 예방, 고립된 사일로 간에 저장 했다. 무엇이 이 큰 소매 업체가 필요한 것은 ” 골든 기록 “의 POS 거래, 택배 및 웹 사이트 트래픽을 포함한 모든 기간, 모든 채널에 걸쳐 통일된 고객 데이터 입니다 .
황금 레코드를 현실화 하는 것으로, 데이터의 호수는 주문을 받아서 만들어진 쿠폰, 프로모션, 이메일 등 타겟 마케팅 캠페인에 대한 중요한 통찰력을 제공 및 지원함으로써 여러 액세스 방법의 일반적인 데이터 세트 ( 일괄 처리, 실시간 스트리밍 , 메모리 등 ) 를 사용자가 변환하고 여러 가지 방법으로 뷰 데이터 (각종 스키마 사이) 및 폐쇄 루프 분석 을 확장 할 수 있습니다. 어느 때보다 가까운 실시간으로 타임 투 통찰력을 가진 응용 프로그램입니다.

실제 의미에서, Data Lake는 세 가지 주요 특성을 특징으로 합니다 :
1. 모든 데이터가 장기간 삶의 원천 뿐만 아니라 모든 처리된 데이터를 모두 수집합니다 .
2. 여러 사업 부문 전체의 사용자는 세련된 확인 조건에 관한 데이터를 제공 할 수 있습니다.
3. 공유 인프라를 통해 여러 데이터 액세스 패턴을 가능하게 합니다. 메모리 및 기타 처리 엔진, 검색 , 온라인 대화 형 배치 .

데이터가 기하 급수적으로 성장을 계속하고 있으며, 기업이 Hadoop 에 대한 투자는 현대 데이터 아키텍처의 효율성 및 엔터프라이즈 데이터 Lake 기회 모두를 위한 전략을 제공 할 수 있습니다.

최종 결과는 확장성과 낮은 비용을 기반으로 한 통찰력입니다.

Hadoop, the Data Lake, and the Modern Data Architecture의 좀더 자세한 설명을 원한다면 다운로드 하십시오. download our whitepaper.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

하둡과 LDAP을 연동하여 기업 환경에 적용하는 방법 (하둡 GroupMapping)

This article is based on Hortonworks Partner Content and Expertise

하둡을 기업 환경에서 운용되는 시스템이라는 측면에서 적용 방법을 소개하고 있습니다.
하둡 파일시스템을 기업의 다양한 스토리지 시스템에 적용하는 방법
하둡은 기업 환경에 어떻게 적용되어야 하는가
SQL 서버에 있는 데이터를 하둡으로 임포트하는 방법
하둡을 도입할 때 반드시 고려해야 할 점

그 중에서도 LDAP은 기업 내부의 유저(사용자)와 그룹(사용자 그룹)을 통합적으로 관리하는 시스템으로 이미 많은 정책이 적용이 되어서 운영되고 있는 중요한 시스템일 것입니다.
기본적으로 LDAP의 다양한 그룹을 하둡에 적용하기 위해서는 두 가지 방법이 있습니다.
첫 번째는 운영체제 레벨에서 LDAP 그룹(LDAP groups)을 읽어 들이도록 설정하는 것이고 두 번째는 하둡 클러스터 레벨에서 그룹 맵핑(Group Mapping)을 설정하는 방법입니다.

이번에는 보다 유연하게 적용이 가능한 두 번째 방법을 통해서 LDAP과의 연동 방법을 살펴보도록 하겠습니다.

LDAP과의 연동 절차
- LDAP에 하둡의 서비스 계정(Service Accounts)를 생성하기
- HDFS의 네임노드(NameNode)와 YARN 리소스매니저(ResourceManager)를 셧다운하기
- 하둡의 core-site.xml 파일을 수정하여 LDAP 서버를 설정하기
- HDFS의 네임노드(NameNode)와 YARN 리소스매니저(ResourceManager)를 재시작하기
- 그룹 맵핑을 확인하기

1. LDAP에 하둡의 서비스 계정(Service Accounts)를 생성하기
먼저 샘플로 services.ldif를 한 번 검토해 보기 바랍니다.
이 파일에서 hcal, mapred, hdfs, yarn, hbase, zookeeper, oozie, hive와 같은 하둡의 서비스 어카운트가 설정되어 있는 것을 확인할 수 있습니다.
물론 Hadoop 그룹을 만들고 하둡 서비스 어카운트를 멤버로 등록시킨 것도 함께 확인할 수 있습니다.

아래 ldapadd 명령을 통해서 LDAP 시스템에 등록을 시키면 됩니다.

ldapadd -f /vagrant/provision/services.ldif -D cn=manager,dc=hadoop,dc=apache,dc=org -w hadoop

그 다음에는 다음 문서를 참조하면서 Hortonworks Data Platform documentation HDFS 네임노드와 YARN 리소스매니저를 셧다운합니다.

2. 하둡의 core-site.xml 파일을 수정하여 LDAP 서버를 설정하기
먼저 수정을 하기 전에 기존의 core-site.xml 파일을 백업하고 아래 샘플 설정을 보면서 LDAP과의 연동을 위한 설정을 진행합니다.
보통 LDAP 연동을 위해서는 bind user, bind password와 같이 LDAP에 특화된 변수에 대한 값을 설정할 필요가 있습니다.
이 때 이 값들을 LDAP에 있는 services.ldif와 크로스체크를 해서 문제가 없도록 한 번 더 살펴 보면 됩니다.

core

그 다음에 네임노드와 리소스매니저를 재기동하면 core-site.xml을 읽어 들이면서 연동을 마무리합니다.

3. 그룹 맵핑을 확인하기
간단히 hdfs groups 명령을 이용하면 LDAP에서 그룹을 가져와서 보여 주므로 연동이 잘 되었는 지 바로 확인할 수 있습니다.

이상에서 LDAP과 연동하여 액세스 컨트롤을 통합해서 관리하는 방법을 알아 봤습니다.
앞으로도 기업의 시스템과 연동해서 하둡 클러스터가 독립된 관리 시스템이 아니라 기업의 기버넌스의 일부로 관리될 수 있도록 하는 방법을 소개해 드리도록 하겠습니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

하둡 데이터의 거버넌스(governance) 체계를 자동화하는 방법 (Apache Palcon)

This article is based on Hortonworks Partner Content and Expertise

하둡을 기업 환경에서 본격적으로 수용하기 위해서 고려해야 할 점들을 많이 소개하고 있습니다.
기업에서 하둡을 도입할 때 반드시 고려해야 할 점
하둡 기반의 기업용 데이터 관리 시스템을 쉽게 구축하는 방법

하둡의 데이터도 기업의 IT 거버넌스(Governance)의 입장에서 봤을 때는 정책이 적용되고 관리되어야 하는 중요한 자산으로 파악을 해야 합니다.
하둡 에코 시스템의 입장에서도 하둡이 기업에 본격적으로 도입을 하기 위해서는 이러한 데이터 관리 정책을 적용하고 추적할 수 있는 방법이 핵심이라는 점을 인지하고 있습니다.

그래서 현재는 아파치 팔콘(Apache Palcon)이라는 프로젝트를 통해서 이러한 기업의 하둡 데이터 거버넌스 니즈를 수용하고자 하고 있습니다.
팔콘은 비교적 새로 하둡 에코시스템에 편입된 컴포넌트이지만 이미 인모비(Inmobi)라는 온라인 광고 회사에서 2년 이상 활용되고 진화되어 온 데이터 관리 시스템입니다.
호튼웍스는 호튼웍스 데이터 플랫폼(HDP) 2.1 버전에 정식으로 팔콘을 통합할 계획을 가지고 있으므로 HDP에 통합된 형태로 이용할 수 있게 되었습니다.

아파치 팔콘은 한 마디로 데이터 관리 정책을 정의하고 스케쥴링하고 모니터링하는 데이터 거버넌스 엔진입니다.
(Apache Falcon is a data governance engine that defines, schedules, and monitors data management policies.)

falc1

다이어그램을 보면 팔콘은 기본적으로 다음 세 가지를 수행하기 위해서 다른 하둡 에코시스템을 이용하고 있습니다.
- 데이터 파이프라인(Data Pipeline)을 정의하기
- 암바리(Ambari)를 이용해서 이러한 데이터 파이프라인의 처리 현황을 모니터링하기
- 데이터 파이프라인의 처리 흐름을 추적하기

팔콘은 이러한 복잡한 처리 과정을 단순화하기 위해서 엔터티(Entity)를 정의하는 방법으로 정책을 지정하고 Apache Oozie의 워크플로우를 통해서 스케쥴링하는 방법으로 복잡한 거버넌스 절차를 자동화합니다.

정책을 정의하기 위한 엔터티는 세 가지로 이루어져 있습니다.

falc3

여기서 클러스터(Cluster) 엔터티는 팔콘이 이용하는 모든 서비스 인터페이스를 지정하는 상위 엔터티이고 데이터셋을 지정하는 피드(Feed)와 스케쥴링을 지정하는 프로세스(Process)는 이 클러스터 엔터티에 의존하게 됩니다.
그래서 항상 클러스터 엔터티를 먼저 지정하고 다른 두 엔터티를 지정하는 형태로 설정을 합니다.

각 정책 마다 어떤 데이터셋이 적용 대상인지에 대한 피드 엔터티를 지정하고 어떤 파이프라인을 통해서 처리할 것인지를 프로세스 엔터티에 지정하여 간단하게 데이터 거버넌스 정책을 자동화할 수 있습니다.

falc2

이렇게 정의된 엔터티들의 정책은 워크플로우 엔진에 Oozie를 통해서 실행이 되고 처리 현황은 다시 팔콘으로 피드백이 됩니다.

다음에는 구체적으로 어떻게 정책을 적용할 수 있는 지 실사례들을 중심으로 살펴 보도록 하겠습니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–