Tags

하둡과 스플렁크의 연동 모델 (Unlocking the Business Value of Big Data with Splunk and HDP 2.1)

This article is based on Hortonworks Partner Content and Expertise

그 동안 하둡이 가진 유연한 플랫폼으로서의 속성때문에 많은 솔루션들이 다양한 연동 포인트를 통해서 하둡을 활용하는 방법에 대해서 많이 소개드렸습니다.

하둡과 SAP의 제품들을 연동하는 방법
하이브와 다른 분석툴을 연동하는 방법
자사의 솔루션을 하둡과 연동한다는 것의 의미와 방법 (SAP HANA case)
미들웨어를 하둡과 연동한다는 것의 의미와 방법

하둡은 이른바 엔터프라이즈 데이터 허브(Enterprise Data Hub)에 적합한 유연성을 가지고 있습니다.
필요에 따라서 기존의 솔루션을 하둡과 연동함으로써 빅데이터를 가장 비용 효율적으로 수용하는 방법은 앞으로도 많은 시도가 있을 것으로 봅니다.

특히, YARN이 도입이 되면서 다양한 어플리케이션이 하둡 클러스터에서 공존하는 프레임워크가 만들어 지면서 이러한 움직임은 더 가속화되고 있습니다.

얼마전에 스플렁크(Splunk)와 호튼웍스 하둡의 연동 테스트가 마무리되면서 기존의 스플렁크 이용자들도 하둡과 연동하여 보다 비용 효율적으로 빅데이터 시스템을 확장할 수 있는 방법이 생겼습니다.

스플렁크와 하둡 연동의 의미

스플렁크는 일종의 ‘Google for Machine Log’라는 별명답게 주로 서버 로그나 센서 데이터 처럼 실시간으로 생성되고 스트리밍되는 데이터를 모아서 ‘인덱싱’하는 과정을 통해서 검색, 분석, 비쥬얼라이제이션을 실시간으로 처리하는 빅데이터 솔루션입니다.

이번에 Hunk 6.1을 발표하면서 하둡에 저장되어 있는 데이터셋을 간단히 지정하는 것만으로 위의 스플렁크의 기능을 바로 사용할 수 있도록 연동성이 강화되었습니다.

Splunk1-1024x834

위 다이어그램에서 보는 것처럼 스플렁크와 하둡의 연동을 통해서 가장 확실하게 효용성이 있는 데이터셋들은 주로 다양한 소스에서 실시간으로 생성되고 스트리밍되는 데이터셋이라는 특성을 가집니다.

이 부분은 기존에 스플렁크가 가장 강점을 가지고 적용이 되었던 분야입니다.

기존에는 스플렁크의 독자적인 Repository를 통해서 이런 로그데이터를 저장했던 것에 비해서 하둡의 파일 시스템(HDFS)에 이러한 데이터셋을 통합해서 저장하고 스플렁크에서 ‘Natively’ 처리할 수 있습니다.

구체적으로는 하둡의 YARN 클러스터에서 스플렁크의 어플리케이션이 돌아가도록 한 부분과 기존의 맵리듀스를 아파치 Tez 기반으로 재설계한 점을 들 수 있습니다.
그리고 하둡 파일시스템(HDFS)뿐만 아니라 Apache Accumulo, Cassandra, MongoDB, Neo4j 등에 저장된 데이터셋에 대해서도 간단히 지정하고 인덱싱해서 분석할 수 있도록 개발을 진행했습니다.

스플렁크는 다른 분석툴이 일반적으로 하는 것처럼 HIVE의 JDBC 인터페이스를 기반으로 연동하는 방식이 아니라 하둡 에코시스템의 다양한 플랫폼들을 직접 연동할 수 있도록 아키텍쳐를 재설계했다는 점에서 가장 전방위적인 접근이 아닌가 싶습니다.

만약에 스플렁크와 비교적 동일한 효과를 하둡 에코시스템에서 구현하기 위해서는 많은 노력이 필요합니다.
하둡을 검색엔진과 연동하는 방법 및 아키텍쳐

이미 검증된 스플렁크를 활용함으로써 이른바 Operational Intelligence를 하둡 기반으로 구축하는 방법으로 기업 환경에서 다양하게 적용가능한 옵션이 되었습니다.

실제로 스플렁크와 하둡을 연결하는 방법은 아래 페이지를 참조하시기 바랍니다.
스플렁크와 하둡의 연동

우리도 많은 기업용 솔루션이 있고 하둡과의 연동을 통해서 빅데이터를 수용하는 솔루션으로 새로운 가치를 발견할 수 있다는 측면에서 이 사례를 검토해 보면 많은 힌트를 얻을 수 있을 것입니다.

———————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–

하둡 데이터를 오픈소스 분석툴인 펜타호를 통해 분석하는 방법

This article is based on Hortonworks and Pentaho Partner Content

하둡 클러스터를 구축한 이후에 누가 이용할 것인가에 대한 문제를 한 번 검토해 볼 필요가 있습니다.
초기에는 주로 개발 부서가 인발브가 되어서 논의가 이루어 지지만 궁극적으로 누가 이용할 것인지를 살펴 보면 어떤 요소들이 더 필요한 지에 대한 인사이트를 얻을 수 있을 것입니다.

기존에 BI를 활용하는 부서의 입장에서 보면 기본적으로 마케팅 분석가나 생산관리 혹은 품질 관리 부서에서 가장 많이 활용을 하고 있으며, 그 외에 데이터웨어하우스를 구축하는 데 필요했던 각 데이터마트의 데이터를 이용하던 조직들이 활발하게 이용하고 있습니다.

이런 관점에서 보면 빅데이터 하둡 클러스터에 모인 데이터를 이러한 분석가들이 쉽고 직관적으로 이용해서 인사이트를 얻도록 도와 주는 쪽의 구성 요소는 하둡 클러스트의 구축 못지 많게 중요한 부문으로 떠오르고 있습니다.

다른 글에서 다양한 연동 방법에 대해서 소개를 드렸습니다.
HIVE를 이용해서 다른 분석툴과 연동하는 방법
하둡과 SAP 제품들을 연동하는 방법
자사의 미들웨어를 하둡과 연동한다는 것의 의미와 방법

일반적으로 HIVE는 하둡 클러스터의 데이터셋에 대해서 테이블 뷰를 제공하고 JDBC와 같은 표준 데이터베이스 연동툴을 통해서 접근하는 것이 가능하기 때문에 가장 쉬운 연동 포인트 중의 하나입니다.

기본적으로는 HIVE의 테이블 뷰를 하둡 클러스터에서 구성하고 분석툴에서 이러한 테이블 뷰를 다른 데이터셋과 마찬가지 방법으로 다룰 수 있도록 구성하는 것이 일반적인 솔루션 개발 프로세스입니다.

다양한 상용 분석툴이 하둡과의 연동을 발표하고 있지만 오픈 소스 분석툴인 펜타호(Pentaho)도 빅데이터 분석 및 시각화에 많은 노력을 기울이고 있어서 분석가들을 위한 다양한 솔루션을 제공하고 있습니다.

그래서 하둡 데이터 통합(Data Integration)의 관점에서 펜타호의 접근 방법을 간단히 소개하고자 합니다.

시각적인 ETL 툴을 통한 데이터 정제 과정

hadoop-drag-and-drop

펜타호는 하둡 데이터셋을 포함한 다양한 데이터 소스의 데이터를 액세스하고 변환하기 위한 다양한 라이브러를 제공하는 방식으로 접근하고 있습니다.
이러한 라이브러리를 활용하는 시각화툴을 통해서 드래그-앤-드롭 방식으로 메타데이터를 생성하도록 지원하고 있습니다.
이러한 시각화툴을 통해서 데이터 맵핑, 정합성 테스트 등을 하나의 파이프라인으로 연결해서 자동화함으로써 분석가들이 실제로 분석을 하기 위한 데이터셋을 손쉽게 준비할 수 있도록 하고 있습니다.

시각적인 툴을 통해서 코딩없이 데이터 분석 및 시각화
이렇게 정제된 데이터셋에 대해서 맵리듀스(MapReduce) 잡을 생성하거나 SQL문을 통해서 원하는 결과를 얻는 방법도 있지만 하둡 클러스터의 데이터셋을 보다 많은 사람들이 이용하기 위해서는 코딩 없이 분석이 가능한 툴이 중요한 요소 중의 하나입니다.

map_0

펜타호는 기존의 데이터베이스를 병렬적으로 분석해서 속도를 높히는 엔진을 보완하여 하둡의 데이터셋에 대해서도 병렬적으로 분석하여 결과를 빠르게 도출할 수 있도록 진화시키고 시각화 툴에 연동시킴으로써 별도의 코딩없이 데이터를 분석하는 방법을 제공합니다.

하둡 클러스터의 데이터셋 이외에도 몽고디비 등의 NoSQL 데이터와의 통합 분석 등의 기능을 지원함으로써 기업이 보유하고 있는 모든 데이터 자산을 가장 효율적으로 이용하기 위한 분석툴을 제공합니다.

이러한 다양한 기능이 오픈소스 커뮤니티를 통해서 플러그인 방식으로 계속 통합됨으로써 기존의 상용 솔루션이 커버하지 못 하는 영역의 분석에 대해서도 지속적으로 그 범위를 확대하고 있습니다.

구체적인 연동 방법과 분석툴에 대한 소개는 계속 드리도록 하겠습니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

호튼웍스 하둡을 이용한 정유(Oil & Gas)산업의 현대적인 아키텍쳐 제안 (From Hortonworks)

This article is based on Hortonworks Partner Content and Expertise

그 동안 각 산업 영역별로 가진 문제점들과 하둡을 이용한 해결 방안에 대해서 소개해 드리고 있습니다.

의료 산업의 혁신을 위한 하둡 아키텍쳐
제조업을 위한 하둡 아키텍쳐
통신사를 위한 하둡 아키텍쳐
유통업을 위한 하둡 아키텍쳐
광고 산업의 혁신을 위한 하둡 아키텍쳐

그 외에 하둡이 가진 유연함(Flexibility)를 활용하여 기업의 데이터 정제 아키텍쳐로 활용하는 방법에 대해서도 소개해 드렸습니다.

소개해 드리면서도 강조하는 사항입니다만 실제 아키텍쳐보다는 이러한 산업들이 가지고 있었던 문제점들을 데이터의 관점에서 바라보고 어떤 부분에 적용하는 것이 가장 적합할 지에 대한 문제의식으로 파악하는 것이 더 중요하다는 생각입니다.

그 동안 호튼웍스의 여러 파트너사들을 통해서 다양한 산업 분야의 사례가 정리되고 있지만 정유 산업은 그 규모는 물론이고 레거시 시스템의 정합성 등의 여러 가지 부분에서 보다 더 유연한(Flexible)한 접근 방식이 중요한 분야라고 합니다.

미국은 이른바 쉐일가스 혁명 등의 일련의 사건들로 인해서 정유 산업이 막대한 투자가 이루어 지는 영역으로 떠 올랐습니다.
심지어 한 국제 에너지 기구(International Energy Agency)에 의하면 2016년 이면 사우디 아라비아와 러시아를 넘어서 최대 산유국이 되리라는 전망이 나오고 있습니다.
하지만 다른 어떤 영역보다도 이른바 투입-대비-산출 비율이 중요한 곳이고 효율성이 강조된다는 측면에서 이 산업을 효율적으로 서포트하기 위한 현대적인 데이터 아키텍쳐에 대한 적용 사례도 나오기 시작하고 있습니다.

정유 산업은 새로운 장치들의 도입, 프로세스 자동화 및 다양한 조직간의 협업의 증대 등의 비즈니스적인 요구는 물론이고 이른바 센서, 지리정보에서 부터 날씨와 방대한 채굴 정보와 지진계측 데이터까지 다양한 데이터 소스를 활용해야 하는 영역입니다.

Oil-and-Gas-Ref-Arch

아키텍쳐는 사실 현대적인 하둡 데이터 아키텍쳐에서 설명드렸던 부분과 크게 다른 면은 없습니다.

그렇다면 정유 산업에 적용될 사례에 대해서 조금 더 자세히 검토해 보겠습니다.

Slow Decline Curves with Production Parameter Optimization
정유 회사는 현재 채굴 중인 유전에서 생산량이 감소하는 것을 항상 관리해야 합니다. 왜냐하면 신규 유전을 발굴하는 과정은 항상 더 많은 투자를 수반하기 때문입니다.
각 유전의 현재까지의 채굴량에 대한 데이터를 분석하는 방법(Decline Curve Analysis)을 통해서 향 후 이 유전의 생산량에 대한 예측과 투자 시점 등의 중요한 의사결정에 근거를 제공할 수 있습니다.
언뜻 간단한 분석처럼 보이지만, 실제로 보통의 DCA는 일정한 비율로 감소하는 선형적인 과정인데 비해서 유전이 처음 채굴되서 수명이 다하기까지의 과정은 복잡한 non-linear 패턴을 보이기 때문에 채굴을 어떻게 하느냐에 따라서 생산량을 필요에 맞게 분배할 수 있는가에 대한 해답을 찾기가 어려운 과정입니다.

예를 들면, 유전의 압력, 유전의 흐름(Flow rates), 원유의 온도 등과 같은 다양한 퍼래미터(Production parameter)에 따라서 생산량을 조절하고 퍼래미터를 조절하는 작업에 의해서 생산량을 최적화할 수 있다고 합니다.
이전에는 이러한 방대한 퍼래미터 데이터값을 저장하고 처리하기 위한 데이터 처리 플랫폼을 구축하는 것은 많은 시간과 비용이 들어 가는 작업이었지만 하둡 데이터 플랫폼은 많은 문제를 해결할 수 있습니다.

Define Operational Set Points for Each Well & Receive Alerts on Deviations
일단 위에서 최적화된 운영 퍼래미터를 식별한 이 후에는 최적화된 퍼래미터 값을 실제 운영 환경에서 유지하고 관리하는 것이 필수적입니다.
하둡 데이터 플랫폼에서 스톰(Storm)과 같은 스트리밍 데이터 처리 플랫폼은 실시간으로 이러한 퍼래미터 값을 식별하고 원하는 값이 실제로 적용되고 있는 지와 차이가 많이 나는 경우에 경고(Alert)를 보냄으로써 운영 환경을 실시간으로 조정할 수 있습니다.
스톰(Storm)은 펌프의 압력, RPM, 유전의 흐름, 온도 등의 데이터셋을 실시간으로 스트리밍하여 문제를 식별함으로서 최적화된 환경을 운영하는 데 큰 역할을 담당할 수 있습니다.

Optimize Lease Bidding with Reliable Yield Predictions
정유 산업은 잠재적인 유전의 채굴 권리를 획득하기 위해서 장기 리스 계약을 해야 하고 이 가격을 결정하는 문제는 향 후 사업의 수익성을 확보하는 데 결정적인 영향을 미칩니다.
하지만 이 유전을 통해서 미래에 얻을 수 있는 수익을 예상해서 비딩하기 위해서는 의사 결정을 위한 근거가 필요합니다.
기존에 회사의 경험을 통해 축적된 데이터뿐만 아니라 제3의 기관의 데이터나 사전 데이터를 축적하기 위한 센서 데이터 등을 함께 조인하고 블렌딩하는 유연한 플랫폼을 통해서 최적화된 비딩 가격을 제시하는 데 이용할 수 있습니다.

Repair Equipment Preventatively with Targeted Maintenance
그 외에도 제조업을 위한 하둡 기반 아키텍쳐에서 제시해 드렸던 것처럼 머신 로그 데이터 분석을 통해서 다양한 장치들의 고장 및 오작동을 예측하고 신속하게 대응하는 데 적용하는 등에서도 활용할 수 있습니다.

현대적인 데이터 플랫폼의 요건은 다양한 데이터셋에 대해서 분석 결과를 얻어 내는 과정을 합리적인 비용으로 수행할 수 있느냐가 관건이고 이것은 하둡 파일시스템이 가진 확장성과 YARN(Yet Another Resource Negotiator)를 통해서 가져 온 유연한 데이터 처리 플랫폼을 통해서 가장 합리적인 해결책을 제시할 수 있습니다.

앞으로도 각 산업 영역에 적용되는 아키텍쳐와 사례에 대해서 계속 공유드리도록 하겠습니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

광고 사업(Advertising)의 혁신을 위한 하둡 아키텍쳐

This article is based on Hortonworks Partner Content and Expertise

그 동안 호튼웍스가 여러 파트너업체들과 함께 다양한 산업 분야의 사례를 분석해서 적합한 아키텍쳐에 대한 백서를 공개하고 있습니다.
통신사를 위한 하둡 아키텍쳐
제조업을 위한 하둡 기반 아키텍쳐
의료 산업의 혁신을 위한 하둡 아키텍쳐
유통업을 위한 하둡 아키텍쳐

이번에는 광고 산업(Advertising)에 대한 사례 분석을 바탕으로 적절한 하둡 아키텍쳐를 소개하고 있습니다.
최근에 다른 어떤 분야보다도 많은 사례들이 나오고 있고 앞으로 발전 여지도 큰 분야 중의 하나라고 볼 수 있겠습니다.
광고 산업은 그 자체가 ‘다양한 데이터 소스로부터의 다량의 데이터를 가공하여 인사이트를 얻는 분야‘이기 때문에 하둡이 처음에 만들어 지고 진화해 온 컨셉과 부합하는 것이 사실입니다.

이른바 고객들은 그들이 어떻게 상품을 조사하고, 토론하고, 구매하는 지에 대해서 직접적으로 데이터를 제공해 주지 않기 때문에 광고 산업에 종사하는 사람들은 그들이 남긴 행동(Behavior or Activity)을 분석해서 이들에 대한 정보를 바탕으로 자사의 브랜드나 상품이 어떻게 시장에서 받아 들여 지고 있는 지를 알아 내려고 합니다.

호튼웍스 데이터 플랫폼은 소셜 미디어, 웹 클릭 스트림, 비디오 시청, 구매 데이터와 같은 다양한 데이터 소스를 분석이 가능한 형태로 다양한 BI툴에 유연하게 제공해 주는 것을 통해서 광고 산업의 효율성에 기여하고자 합니다.

이러한 분석 결과는 신규 고객의 유업과 충성도(Loyalty)를 높히기 위한 다양한 광고 산업의 핵심 분야에 확실한 근거를 제공할 수 있습니다.

Advertising Data Architecture

advertising-data-architecture

이러한 아키텍쳐를 바탕으로 실제로 어떻게 활용될 수 있는 지 몇 가지 사례를 살펴 보겠습니다.
POS 데이터 분석을 통해서 충성도가 높은 고객을 식별하기
체크아웃 카운터에서 사용자가 물건을 구매할 때마다 POS 시스템으로 실시간으로 데이터가 전송이 되고 이러한 데이터는 기본적으로 바로 트랜잭션 시스템으로 통합이 되는 형태로 구성이 되어 있습니다.
POS 시스템에서 처리하는 데이터는 사실상 고객의 구매 패턴을 파악할 수 있는 가장 좋은 기반 데이터이지만 처리해야 할 데이터의 양과 스트리밍되는 속도라는 두 가지 측면에서 아직 이 데이터를 가지고 분석을 하는 단계에는 도달하지 못 했습니다.
하둡은 이러한 대량의 스트리밍 데이터를 합리적인 비용으로 처리하기 위한 아키텍쳐를 제공함으로써 고객의 구매 패턴, 가격에 대한 민감성(Sensitivity) 그리고 수요 예측(demand forecasting)에 이르는 다양한 분석 결과를 도출할 수 있습니다.

특히 최근의 Stinger와 같은 신속한 처리 시스템을 통해서 스트이밍되는 데이터에 대해 신속한 분석 결과를 얻기 위한 준비도 진행이 되고 있습니다.

정밀한 타겟 세그멘테이션을 통한 타겟 광고 시스템 구축
여기서는 라틴계 고객들에 대한 타겟 광고를 전문적으로 진행하는 Luminar라는 회사의 사례를 들고 있습니다.
원래 이 회사는 미국에 살고 있는 라틴계 소비자들의 샘플을 통해서 인사이트를 얻고 있었는 데 미국에 살고 있는 전 라틴계 소비자들로 확대하여 실증적인 근거 데이터를 확보하는 것이 목표였습니다.

호튼웍스는 기존의 Luminar가 가진 BI 시스템(AWS, R, Tableau 등)에 대한 투자를 그대로 보존하면서 기존의 300개의 데이터소스에서 하둡을 통해 2000개 이상의 데이터소스를 처리할 수 있도록 구축함으로써 샘플링 기법이 아닌 전수 조사를 통한 타겟 광고 시스템을 구축하였습니다.
현재 한 달에 15TB에 해당하는 데이터를 처리하고 있다고 합니다.

고객의 행동, 지리적 위치, 채널 별로 비디오 컨텐츠 유통하기
비디오 컨텐츠는 효과가 높지만 유통하는 데 많은 비용이 들어가는 광고 유형입니다.
최근에는 TV뿐만 아니라 모바일, 온라인, 스마트 기기 등으로 채널이 급격히 다양해 지고 있습니다.
고객의 행동이나 지리적 위치 혹은 선호하는 채널 별로 적절하게 비디오 컨텐츠를 분석하는 방법은 광고의 효율성 뿐만 아니라 비용을 낮추는 데도 큰 기여를 할 수 있습니다.
회사는 비디오에 대한 클릭스트림 데이터를 호튼웍스 데이터 플랫폼에서 실시간으로 분석함으로써 그 결과를 바탕으로 Recommendation Engine을 운영함으로써 큰 효과를 볼 수 있는 사례입니다.

그 외에도
ETL Toy Market Research Data for Longer Retention & Deeper Insight
Optimize Online Ad Placement for Retail Websites

하둡의 데이터 플랫폼의 장점은 기존의 BI 시스템에 대한 투자를 그대로 활용하면서 유연하게 적용할 수 있다는 점이 광고 산업에 있어서는 핵심적인 데이터 처리 플랫폼으로 받아 들여 지고 있는 가장 실용적인 이유라고 보면 되겠습니다.

기본적으로 고객의 행동(Behaviour or Activity)에 대한 데이터 소스는 비정형적이고 다양하며, 스트리밍되는 데이터가 많다는 점에서 하둡 2.0이 가지고 있는 유연한 데이터 처리 방식이 가장 빛을 발하는 분야입니다.

각 사례에 대한 아키텍쳐 측면의 분석은 계속 소개를 드리려고 합니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

호튼웍스 하둡과 NoSQL 데이터베이스의 연동 방법 (Apache Accumulo case – Security)

This article is based on Hortonworks Partner Content and Expertise

지금까지 다양한 솔루션을 하둡과 연동하는 것의 의미와 방법에 대해서 소개를 드렸습니다.
자사의 솔루션을 하둡과 연동하는 것의 의미와 방법
엔터프라이즈 레벨 실시간 시스템의 최강 조합(하둡 + 인메모리 데이터베이스)
HIVE를 통해 다른 분석툴과 연동하는 방법

하지만 최근에 그 확장성과 빠른 성능때문에 많은 주목을 받고 있는 NoSQL 데이터베이스와의 연동 트렌드에 대해서는 특별히 소개드린 적이 없습니다.
가장 큰 이유는 이미 HBase라고 하는 데이터베이스가 하둡 에코시스템의 중요한 부분으로서 긴밀하게 연동하면서 발전하고 있기 때문입니다.
HBase는 구글의 빅테이블의 설계를 구현하면서 Billion 단위의 많은 로우(Row)를 가진 큰 테이블을 처리할 수 있는 확장성을 가지고 있고 이미 여러 가지 레퍼런스를 통해서 그 효용성을 입증하고 있습니다.

이번에 호튼웍스와 ‘Apache Accumulo’의 개발자들이 독립한 회사인 ‘Sqrrl Inc’과의 제휴를 통해서 공개한 레퍼런스 아키텍쳐를 소개드리려고 합니다.

그렇다면 이미 검증된 HBase가 엔터프라이즈 레벨로 진화해 나가는 상황에서 역시 빅데이블의 철학을 계승한 또 하나의 NoSQL 데이터베이스와의 협력 혹은 연동이 필요한 이유는 무엇일까요?

Apache Accumulo는 최근에 3 ~ 4번 째로 가장 적용이 많이 되는 NoSQL 데이터베이스라고 합니다만 주로 금융회사나 정부 기관 및 의료 기관에서 급격히 보급되고 있는 빅테이블 클론입니다.
태생이 NSA(National Security Agency)에서 2008년에 시작된 프로젝트라는 것에서 부터 특히 보안 부분에 특화되었다는 인상을 받을 수도 있겠습니다.
그 시작점이 암시하는 것처럼 보안을 강화하고 성능을 높히기 위한 아키텍쳐를 가지고 있습니다.

빅데이터도 역시 데이터를 다루는 시스템이기 때문에 보안이라는 측면은 항상 양날의 칼과 같습니다.
일전에도 하둡의 저장 및 전송시의 암호화API Gateway를 통한 보안 시스템에 대한 글을 소개드렸습니다만 데이터베이스 관점에서 보안을 강화한다는 점은 역시나 중요한 출발점이 되겠습니다.

그래서 ‘Apache Accumulo’의 가장 큰 특징인 ‘Cell-level Security’에 대해서 간략하게 소개하겠습니다.
용어는 어려워 보이지만 컨셉은 간단합니다. 기존의 빅데이블 데이터 모델(Data Model)에 이 칼럼 혹은 ‘(Key, Value)’를 읽을 수 있는 권한을 명시한 다른 Key를 하나 더 추가한 것입니다.

유저가 쿼리(Query)를 실행시켜서 이 칼럼을 읽을 수 있으려면 위의 Key에 저장된 ‘보안 라벨’을 만족시켜야 한다는 컨셉입니다.
이것은 계속 변화하는 보안 정책에 맞춰서 각 칼럼의 ‘보안 라벨’의 값을 유연하게 지정함으로써 금융회사나 공공 기관 등의 보안 수준을 유지할 수 있게 해 주는 역할을 가지고 있습니다.
즉, 유저는 본인이 인증되어서 접근할 수 있는 칼럼에만 접근할 수 있도록 아주 세밀하게 보안 정책을 적용할 수 있습니다.

하둡 에코시스템이 빅데이터의 기반 플랫폼이 되면서 일전에 설명드린 하둡 파일시스템(HDFS)과 API 호출 레벨의 보안 플랫폼과 더불어서 에코 시스템 요소들의 전체적인 보안도 큰 고려 요소입니다.

호튼웍스는 Accumulo가 가지고 있는 이 아키텍쳐를 통해서 보다 보안 정책이 중요한 기업 고객들에게도 어플하려고 합니다.
실제로 미국의 의료기관에서는 ‘Affordable Care Act’에서 파생하는 엄격한 데이터 보안 정책이 요구되는 데 Accumulo는 이러한 데이터의 보안성을 유지하면서 데이터를 공유할 수 있는 레퍼런스를 많이 제공하면서 급격히 보급이 되었습니다.

호튼웍스는 이러한 Accumulo를 호튼웍스 데이터 플랫폼(Hortonworks Data Platform)에 통합하면서 아래와 같이 다양한 관점에서 보안성을 향상시켰습니다.
- Secure SQL search to enable real-time aggregations of multi-structured data
- Secure full-text search, using the Lucene syntax to enable keyword search
- Secure graph search, to enable exploration of how data is connected
- JSON support, to enable development of document-style data models
- High concurrency to power applications supporting large numbers of users
- A policy engine and labeling engine to simplify the application of fine-grained security labels to datasets and to enable both Attribute Based and Role Based Access Controls.
이러한 보안성 향성은 결국 Accumulo가 각 칼럼 별로 접근 권한을 유연하게 적용할 수 있다는 특징에서 나온다는 것을 바로 캐치할 수 있을 것입니다.

squirll

위 레퍼런스 아키텍쳐를 보면 기존의 HBase를 ‘Apache Accumulo’로 완전히 대체하는 것이 가능합니다.
이 연동을 통해서 보안에 민감한 금융 기관, 정부 기관, 의료 기관의 빅데이터 프로젝트에 중요한 컴포넌트의 하나로 적용될 수 있을 것으로 기대합니다.

호튼웍스 데이터 플랫폼은 ‘Apache Accumulo’에 대한 기술 지원도 함께 담당하고 있으니 연동 아키텍쳐에 대한 좀 더 자세한 사항은 아래에서 다운로드받아서 검토해 보기 바랍니다.
호튼웍스와 Apache Accumulo의 레퍼런스 아키텍쳐 <-- 다운로드

-----------------------------------------------------------------------------------------------------------------------------
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

Page 1 of 3123