Tags

엔터프라이즈 플랫폼을 위한 하둡의 현재 위치 및 발전 방향 (summary of Hadoop summit 2014)

This article is based on Hortonworks Partner Content and Expertise

이번 하둡 서밋 2014는 여러 가지 의미를 가지고 있습니다만 개인적으로는 드디더 하둡이 엔터프라이즈 데이터 허브로서 적용될 수 있는 프레임워크를 완성했다는 것에 두고 싶습니다.

먼저 호튼웍스의 키노트 영상을 먼저 보겠습니다.

다양한 사례들과 하둡의 향후 모습에 대해서 미리 엿볼 수 있습니다만 그 중에서도 뒤쪽에 있는 ‘Hadoop Innovation’이라는 부분에 주목을 하는 것이 좋을 듯 합니다.

하둡에 대해서 많은 얘기들이 나오고 있지만 아직은 하둡 1.0의 패러다임과 하둡 2.0의 새로운 진화가 공존하고 있는 상황으로 보입니다.
하둡 2.0이 ‘빅데이터 저장 및 관리’ 와 ‘빅데이터 처리’의 두 가지 관점에서 어떻게 변했고 앞으로 어떻게 변해갈 것인지 이해하는 부분이 중요해 보입니다.

더이상 하둡은 하둡파일시스템과 배치 처리를 위한 맵리듀스가 결합된 단일 목적의 빅데이터 처리 플랫폼이 아니라 다양한 어플리케이션이 공통의 저장 패러다임을 공유하면서 목적에 맞게 다양한 데이터 처리 방식을 수용하는 플랫폼이 되었다는 것에 대해 인사이트를 얻을 수 있을 것입니다.

hadoop_second

현재까지 진행된 상황을 한 페이지로 요약한 다이어그램입니다.

- 데이터 관리
- 데이터 접근(Access)
- 거버넌스(Governance) 와 연동 혹은 통합(Integration)
- 보안
- 운영 (Operations)

5가지의 핵심적인 요소들이 이 블로그에서 소개드린 다양한 에코시스템의 통합을 통해서 지원하는 수준으로 발전했습니다.

그리고 그 동안 하둡이 엔터프라이즈에 적용되면서 나왔던 니즈들을 어떻게 수용하게 되었는 지도 한 번 검토해 볼 필요가 있습니다.

hadoop_third

먼저 데이터 관리의 측면에서 하둡의 새로운 아키텍쳐가 어떻게 기업의 니즈를 수용했는 지에 대한 개요입니다.
그 동안 많은 요구가 있었던 안정성 측면에서 이른바 ‘FullStack HA’구성이 가능해 진 점과 멀티 데이터센터의 DR(Disaster Recovery)를 수용하게 되었다는 점에 주목하시면 좋을 듯 합니다.

hadoop-yarn

많은 기사를 통해서 소개드리고 있는 데이터 접근 측면의 변화입니다.
아마도 기존의 하둡의 접근과 완전히 달라졌기 때문에 혼란이 많이 있는 영역이지만 이제는 YARN(Yet Another Resource Negotiator)의 도입으로 기존에 맵리듀스의 배치처리 방식 뿐만 아니라 Batch, Interactive, Realtime, Streaming의 네가지 주요 데이터 처리 방식을 모두 지원하게 되었습니다.

YARN은 하둡 클러스터의 전체 리소스를 관리하는 시스템으로서 각 어플리케이션에 필요한 리소스를 할당하고 모니터링하는 업무에 집중함으로써 다양한 어플리케이션이 하둡 클러스터의 리소스를 공유할 수 있도록 탈바꿈하게 만든 핵심 요소입니다.

그 외에 기업 환경에 적용하는 데 핵심적인 보안 및 운영 관리의 측면에도 기업 니즈를 반영함으로써 엔터프라이즈 데이터 허브에 적합한 플랫폼을 갖추게 되었습니다.

hadoop-streaming

일례로 스톰(Storm) 어플리케이션이 YARN 위에서 돌아가면서 기존의 배치 처리와 상반되어 보이는 머신로그, 센서로그, 서버로그 등의 스트리밍 데이터를 실시간으로 처리하는 기반이 완성되었습니다.

저희도 많은 관심을 갖는 분야이고 지속적으로 소개해 드리고 있습니다.

hadoop-storage

그리고 기존의 하둡의 이미지라고 할 수 있는 로컬디스크가 달린 서버를 균등하게 연결하는 시스템도 기업의 니즈에 의해 변모했습니다.
바로 전의 기사에서 소개드린 것처럼 메모리, SSD 스토리지, 하드디스크 등의 기업 현장의 스토리지를 충분히 이용하는 방향으로 발전이 이루어 지고 있습니다.

hadoop-slide

하지만 가장 주목해야 할 부분은 바로 ‘Others’입니다.
한국에도 많은 기업용 솔루션을 기존에 개발한 회사들도 있고 운용 중이지만 이러한 솔루션을 어떻게 빅데이터를 처리할 수 있도록 할 것인가는 아주 실질적인 문제이고 중요한 문제입니다.

이제는 기존의 어플리케이션을 직접 하둡 클러스터에 적용되어서 빅데이터 솔루션으로 변모하기 위한 프레임워크인 슬라이드(Slide)의 발표가 있었습니다.
참고로 호튼웍스에서 NoSQL을 YARN에서 바로 동작하는 샘플을 발표했으니 함께 검토해 보시기 바랍니다.

전체적으로 빅데이터 시대를 위한 가장 비용 효율적이고 범용적인 플랫폼이 등장했다는 인사이트에 집중해서 보시면 좋을 듯 합니다.

———————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–

하둡을 도입할 때 반드시 고려해야 할 점 (5 Things to Consider for Hadoop Integration in the Enterprise)

This article is based on Hortonworks Blog

최근에 빅데이터를 활용해서 기업의 경쟁력을 높히기 위해서 많은 도입 논의가 있습니다.
하지만 아직 하둡의 도입의 관점에서 냉정하게 보면 아직도 초기 단계인 것은 확실합니다.

기술적인 앵글을 넘어서 빅데이터가 기존의 업무 프로세스와 데이터 처리 방식에 어떻게 영향을 줄 것인가의 관점에서 접근하는 논의는 이제 시작 단계라는 생각이 많이 듭니다.

그래서 기업의 도입 논의에서 고려해야 할 사항들을 5가지로 정리한 글을 소개하고자 합니다.

1. 데이터의 크기는 잊어 버려라. (Forget volume or don’t focus on it)
빅데이터라는 정의가 많은 혼란을 주곤 하지만 사실 빅데이터 프로젝트는 반드시 데이터 볼륨의 크기와 연관이 있는 것은 아닙니다.
빅데이터를 논의할 때는 데이터 볼륨의 크기 뿐만 아니라 데이터 소스(Data Source)의 다양성과 데이터 포맷(format)의 다양성과도 관련이 깊습니다.
하둡은 초기부터 관계형 데이터베이스와 데이터를 보는 관점에 차이가 있습니다.
즉, 하둡은 데이터 소스의 포맷을 그대로 유지하고 저장하면서 이것을 ‘처리’하는 단계에서 어떻게 데이터를 바라 볼 것인지를 정하는 방식입니다.
그래서 유연하게 다양한 데이터 소스와 포맷에 대응할 수 있습니다.

“의미 있는 데이터 소스를 식별하라” – 물론 그 크기보다는.
(Make sure you go after the “right” data: identify all the sources that are relevant, and don’t be embarrassed if you don’t need to scale your data computing cluster to hundreds of nodes right away!)

당연하게 들리겠지만 빅데이터 프로젝트를 진행하면 아무래도 데이터 볼륨의 크기나 확장성 등이 논의의 중심을 차지하는 경향이 있습니다.
그것보다는 그 회사의 전략 혹은 프로젝트의 목적에 적절한 데이터란 무엇인가에 대한 논의가 핵심이 되어야 한다는 취지입니다.

2. 데이터를 놓치고 가지 말고 포괄적으로 판단하라.(Don’t leave data behind – be comprehensive.)
실제로 도입 단계에서 우리에게 적절한 데이터를 판단할 때는 이른바 ’1차 데이터’라고 부르는 잘 정리되어 있고 그 데이터의 가치가 잘 알려져 있는 데이터를 위주로 생각하게 됩니다.
예를 들면, 재고 관리 시스템과 같은 비즈니스 어플리케이션에서 나오는 데이터를 예로 들 수 있겠습니다.
하지만 이러한 데이터 위주로 판단을 하게 되면 빅데이터 구축의 가능성을 많이 축소시킬 수 도 있습니다.

사실 기업의 중요한 인사이트는 각종 로그파일, 생산 시스템의 이벤트들, 각종 서버의 상태 정보들, 소셜 네트워크의 상품에 대한 의견들과 같이 기존에 여러 가지 이유로 다루어 지지 않은 데이터 소스들에 있습니다.

프로젝트의 규모를 정할 때 적절한 데이터를 좀 더 포괄적으로 보기 위한 관점이 중요하고 하둡은 합리적인 비용으로 이것을 처리할 수 있게 해 줍니다.

3. 모든 데이터를 모으려는 노력보다는 논리적으로 잘 분산시켜라. (Don’t move everything – distribute data “logically.”)
많은 기업들이 빅데이터 프로젝트를 진행할 때 기존에 데이터웨어 하우징(Dataware-housing) 프로젝트를 진행할 때처럼 모든 데이터를 중앙으로 모으거나 어떤 지점으로 옮기는 데 초점을 맞추고 있습니다.
물론 하둡은 데이터를 중앙화하는 데 적합한 기능을 가지고 있습니다.

하지만 하둡을 중심으로 무리하게 데이터를 옮기려는 노력보다는 적절히 분산시키는 것이 훨씬 효율적이고 성공 가능성이 높습니다.
이른바 “논리적인 데이터웨어하우스”라는 개념이 빅데이터 프로젝트에는 더 어울릴 지도 모릅니다.
(The “Logical Data Warehouse” concept applies well in the “non big data” world. Leverage it for big data.)

4. 스토리지 뿐만 아니라 데이터 처리 플랫폼에 대해서도 충분히 고려하라.(It’s not only about storage – think processing platform)
보통은 하둡이 가진 분산 스토리지에 초점을 두고 데이터를 어떻게 분산시켜서 관리할 지에 대한 논의가 많이 이루어 집니다.
물론 가장 기본적이고 중요한 논의이기는 하지만 이것은 하둡의 파일 시스템(HDFS)에 국한된 논의라고 봐도 되겠습니다.

하둡은 에코시스템을 통해서 데이터를 처리하고 의미 있는 인사이트를 주기 위한 효율적인 방법들을 많이 가지고 있습니다.
특히, 하둡 2.0의 YARN의 도입과 함께 데이터의 속성에 맞게 배치 처리부터 실시간 처리에 이르기까지 다양한 처리 방식을 지원합니다.

물론 R 등과 같은 통계 패키지부터 상용 분석툴에 이르기까지 하둡 기반의 데이터를 분석하기 위한 많은 방법들이 속속 발표되고 있습니다.
데이터 처리 플랫폼에 대한 폭넓은 고려를 해서 의사 결정을 하는 것이 중요합니다.

5. 빅데이터를 독립된 혹은 격리된 프로젝트로 진행하지 마라.
특히 한국에서는 도입 논의 시에 가장 중요한 포인트라고 생각합니다.
빅데이터를 기존의 IT 거버넌스(governance)난 업무 프로세스(Business Process)의 밖에서 독립된 프로젝트로 진행이 된다면 성공 가능성이 크지 않다고 봅니다.

빅데이터는 Poc(Proof of concept)단계부터 기존에 기업이 운영하고 있는 IT 인프라 및 운영 정책의 틀에서 논의되어져야 합니다.
Poc 단계를 단순히 하둡 클러스터의 구축 및 샘플 데이터의 처리 등과 같은 관점에서 진행하면 막상 최종 단계에 적용할 때 많은 부분을 다시 고려해야 하는 문제점이 발생할 가능성이 높습니다.

도입 단계에서 빅데이터 프로젝트를 포괄적인 관점에서 논의하는 것이 중요하다는 점으로 요약할 수 있겠습니다.

5 Things to Consider for Hadoop Integration in the Enterprise 원문 참조.

———————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–

하둡 데이터를 오픈소스 분석툴인 펜타호를 통해 분석하는 방법

This article is based on Hortonworks and Pentaho Partner Content

하둡 클러스터를 구축한 이후에 누가 이용할 것인가에 대한 문제를 한 번 검토해 볼 필요가 있습니다.
초기에는 주로 개발 부서가 인발브가 되어서 논의가 이루어 지지만 궁극적으로 누가 이용할 것인지를 살펴 보면 어떤 요소들이 더 필요한 지에 대한 인사이트를 얻을 수 있을 것입니다.

기존에 BI를 활용하는 부서의 입장에서 보면 기본적으로 마케팅 분석가나 생산관리 혹은 품질 관리 부서에서 가장 많이 활용을 하고 있으며, 그 외에 데이터웨어하우스를 구축하는 데 필요했던 각 데이터마트의 데이터를 이용하던 조직들이 활발하게 이용하고 있습니다.

이런 관점에서 보면 빅데이터 하둡 클러스터에 모인 데이터를 이러한 분석가들이 쉽고 직관적으로 이용해서 인사이트를 얻도록 도와 주는 쪽의 구성 요소는 하둡 클러스트의 구축 못지 많게 중요한 부문으로 떠오르고 있습니다.

다른 글에서 다양한 연동 방법에 대해서 소개를 드렸습니다.
HIVE를 이용해서 다른 분석툴과 연동하는 방법
하둡과 SAP 제품들을 연동하는 방법
자사의 미들웨어를 하둡과 연동한다는 것의 의미와 방법

일반적으로 HIVE는 하둡 클러스터의 데이터셋에 대해서 테이블 뷰를 제공하고 JDBC와 같은 표준 데이터베이스 연동툴을 통해서 접근하는 것이 가능하기 때문에 가장 쉬운 연동 포인트 중의 하나입니다.

기본적으로는 HIVE의 테이블 뷰를 하둡 클러스터에서 구성하고 분석툴에서 이러한 테이블 뷰를 다른 데이터셋과 마찬가지 방법으로 다룰 수 있도록 구성하는 것이 일반적인 솔루션 개발 프로세스입니다.

다양한 상용 분석툴이 하둡과의 연동을 발표하고 있지만 오픈 소스 분석툴인 펜타호(Pentaho)도 빅데이터 분석 및 시각화에 많은 노력을 기울이고 있어서 분석가들을 위한 다양한 솔루션을 제공하고 있습니다.

그래서 하둡 데이터 통합(Data Integration)의 관점에서 펜타호의 접근 방법을 간단히 소개하고자 합니다.

시각적인 ETL 툴을 통한 데이터 정제 과정

hadoop-drag-and-drop

펜타호는 하둡 데이터셋을 포함한 다양한 데이터 소스의 데이터를 액세스하고 변환하기 위한 다양한 라이브러를 제공하는 방식으로 접근하고 있습니다.
이러한 라이브러리를 활용하는 시각화툴을 통해서 드래그-앤-드롭 방식으로 메타데이터를 생성하도록 지원하고 있습니다.
이러한 시각화툴을 통해서 데이터 맵핑, 정합성 테스트 등을 하나의 파이프라인으로 연결해서 자동화함으로써 분석가들이 실제로 분석을 하기 위한 데이터셋을 손쉽게 준비할 수 있도록 하고 있습니다.

시각적인 툴을 통해서 코딩없이 데이터 분석 및 시각화
이렇게 정제된 데이터셋에 대해서 맵리듀스(MapReduce) 잡을 생성하거나 SQL문을 통해서 원하는 결과를 얻는 방법도 있지만 하둡 클러스터의 데이터셋을 보다 많은 사람들이 이용하기 위해서는 코딩 없이 분석이 가능한 툴이 중요한 요소 중의 하나입니다.

map_0

펜타호는 기존의 데이터베이스를 병렬적으로 분석해서 속도를 높히는 엔진을 보완하여 하둡의 데이터셋에 대해서도 병렬적으로 분석하여 결과를 빠르게 도출할 수 있도록 진화시키고 시각화 툴에 연동시킴으로써 별도의 코딩없이 데이터를 분석하는 방법을 제공합니다.

하둡 클러스터의 데이터셋 이외에도 몽고디비 등의 NoSQL 데이터와의 통합 분석 등의 기능을 지원함으로써 기업이 보유하고 있는 모든 데이터 자산을 가장 효율적으로 이용하기 위한 분석툴을 제공합니다.

이러한 다양한 기능이 오픈소스 커뮤니티를 통해서 플러그인 방식으로 계속 통합됨으로써 기존의 상용 솔루션이 커버하지 못 하는 영역의 분석에 대해서도 지속적으로 그 범위를 확대하고 있습니다.

구체적인 연동 방법과 분석툴에 대한 소개는 계속 드리도록 하겠습니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

하둡 HBase를 기업 환경에 도입할 때 고려해야 할 점

This article is based on Hortonworks Partner Content and Expertise

하둡과 다양한 NoSQL을 연동해서 확장성과 성능이 높은 데이터 처리 시스템을 구축하는 부분은 소개를 드린 적이 있습니다.
호튼웍스 하둡과 NoSQL을 연동하는 방법 – Accumulo Case
HBase의 가능성과 한계점

지난 주에 HBase 0.98.0 버전이 발표가 되었고 이제는 실제 기업 환경에 도입될 수 있을 수준의 안정성을 점차 확보해 나가고 있습니다.
HBase는 구글의 빅데이블의 설계 철학과 데이터 모델에 맞추어서 개발되어서 로우(Row)가 수조개에 이르는 ‘빅’ 테이블의 데이터를 분산시켜서 처리할 수 있는 NoSQL 데이터베이스입니다.

반드시 염두해 두어야 할 것은 HBase는 기업에 도입할 때 그 가능성과 한계점에 대해서 확실히 이해한 이 후에 도입할 필요가 있습니다.
즉, HBase는 관계형 데이터베이스가 가지고 있는 ‘보증하는’ ACID를 지원하는 것이 아니라 각 목적에 맞게, 좀 심하게 얘기하면, ‘조금만 기다리면’ 전체적으로 만족시키는 접근 방법입니다.
HBase의 관점에서 본 ACID에 대해서는 이 링크를 꼭 참조하시기 바랍니다.
예를 들면, 원자성(Atomicity)에 대해서도 HBase는 ‘All mutations are atomic within a row’의 의미입니다. HBase의 원자성은 하나의 로우(Row)에 대해서 PUT 작업이 이루어 질 때 완전히 성공하거나 완전히 실패하거나 두 가지를 보증한다는 정보의 의미만을 가지고 있습니다.

그렇다면 기존의 관계형 데이터베이스가 기업 내부의 데이터 처리 시스템으로 오랜 기간 검증이 된 상황에서 HBase와 같은 NoSQL이 등장한 이유는 무엇일까요?
여러 가지 이유가 있지만 가장 핵심적인 것은 관계형 데이터베이스가 오히려 너무 많은 다양한 데이터 처리 작업에 쓰이고 있다는 것에 대한 재검토일 것입니다.

페이스북과 같은 인터넷 기업들에서 몇 초만에 수십만 개의 댓글이 달리는 케이스를 생각해 보면 이해가 가실 겁니다.
만약에 이 처리를 관계형 데이터베이스를 통해서 한다면 급격히 테이블이 늘어나는 것도 문제지만 응답속도도 급격히 느려질 것입니다. 그래서 완벽하게 ACID를 보증하는 접근 방법이 아니라 일단 간단한 스키마로 신속하게 처리하는 것에 중점을 둔 데이터베이스에 대한 개념들이 나오기 시작했습니다.

기업에 적용하는 경우에도 트랜잭션이 짧은 시간에 일어 나는 경우에 프론트엔드에서 NoSQL이 작업을 하고 중간 결과 등을 관계형 데이터베이스에 저장하는 것과 같이 서로 보완을 할 수 있는 접근 방법이 좋습니다.

조금 더 상세히 그 핵심적인 기능을 좀 더 살펴 보겠습니다.
Features of HBase

Linear and modular scalability.
Strictly consistent reads and writes.
Automatic and configurable sharding of tables
Automatic failover support between RegionServers.
Convenient base classes for backing Hadoop MapReduce jobs with Apache HBase tables.
Easy to use Java API for client access.
Block cache and Bloom Filters for real-time queries.
Query predicate push down via server side Filters
Thrift gateway and a REST-ful Web service that supports XML, Protobuf, and binary data encoding options
Extensible jruby-based (JIRB) shell
Support for exporting metrics via the Hadoop metrics subsystem to files or Ganglia; or via JMX

다양한 기능 중에서 빅데이터블의 설계 철학과 연관해서 중요한 점만 살펴 보겠습니다.
보통 관계형 데이터베이스에서 테이블이 크기가 커졌을 때 해야 하는 작업은 샤딩(Sharding)이라는 작업입니다.
즉, 테이블의 로우(Row)를 잘라서 분산시킴으로써 처리 성능을 향상시키려는 방식인데 HBase는 샤딩을 기본적으로 실행해서 스토리지를 늘리는 것에 맞추어서 처리 속도도 확장가능하도록 하는 것이 핵심입니다.

아마 이 부분은 실제로 테이블 크기가 더 커져서 샤딩을 다시 해야 하는 상황(Re-Sharding)을 경험해 본 DBA들은 그 작업의 어려움을 실감하고 있을 듯 합니다.

그 외에도 블록 단위의 캐싱 기능을 이용해서 급격하게 처리 요청이 많아 지는 케이스에 대해 실시간으로 대응하는 유연한 설정이 가능하다는 점이나 칼럼 단위로 테이블을 구성할 수 있는 옵션 등등이 있습니다.

즉, HBase는 엄격한 ACID를 처리하기 위한 버든(Burden)보다는 심플한 Key-Value 방식의 데이터 모델로 급격히 늘어 나는 테이블의 사이즈와 급격히 늘어나는 데이터 처리 요청을 앞단에서 신속하게 처리하는 데 그 장점이 있습니다.

이 부분에서 왜 하둡과 HBase과 상성이 맞는 지는 명확해 집니다.
하둡의 파일 시스템(HDFS)는 기본적으로 커다란 파일을 블록으로 나누어서 많은 노드에 분산되어서 저장이 되어 있습니다.
즉, 이미 분산시켜서 데이터를 처리할 수 있도록 미리 준비가 되어져 있고 리소스를 늘리면 선형적으로 처리 능력이 확장됩니다.

그래서 하둡과 HBase는 다음과 같이 연동되어서 아키텍쳐를 구성하게 됩니다.
hbase

일전에 데이터 정제 아키텍처로서의 하둡이라는 기사에서도 소개드린 것처럼 하둡과 HBase를 데이터 처리 앞 단의 ‘다양한 데이터 소스의 데이터를 신속하게 처리하는 시스템’의 역할을 부여해서 기존의 데이터베이스 시스템에 대한 투자와 버든을 줄이면서 기업 전체의 처리 능력을 높히는 방향으로 이용하는 사례가 적절합니다.

datacleansing

이상과 같이 NoSQL이 기존 데이터베이스 시스템을 대체할 수 있는 지 등등에 대한 의미 없는 논쟁보다는 그 가능성과 한계점에 맞게 가장 적절한 역할이 무엇인지 먼저 판단하는 것이 중요한 포인트입니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

자사의 미들웨어를 하둡과 연동한다는 것의 의미와 방법 (Redhat JBoss case)

This article is based on Hortonworks Partner Content and Expertise

하둡이 실제로 기업 현장에 적용이 될 때는 독립적인 프로젝트보다는 기존의 IT 거버넌스(Governance)의 관점에서 poC 단계에서부터 고려되어야 한다는 점이 최근에 많이 지적되고 있습니다.
하둡을 도입할 때 반드시 고려해야 할 점

이런 측면에서 최근에 하둡 2.0의 발표와 함께 많은 벤더들이 호튼웍스 하둡 데이터 플랫폼(HDP)과의 제휴를 통해서 자사의 솔루션과 하둡을 연동하여 하둡의 유연성과 확장성을 활용하고 있습니다.
엔터프라이즈 레벨 실시간 시스템의 최강 조합(하둡 + 인메모리 데이터베이스)
자사의 솔루션을 하둡과 연동한다는 것의 의미와 방법

그렇다면 미들웨어 솔루션과 하둡이 연동된다는 것은 어떤 의미를 가질까요?
최근에 레드헷(Redhat)과 호튼웍스(Hortonworks)가 발표한 전략적 제휴 중에서 JBoss의 관점에서 이 부분을 소개드리고자 합니다.

먼저 미들웨어(Middleware)가 기업 IT 환경에서 어떤 역할을 하는 지를 간략하게 보겠습니다.
가장 오해도 많고 제품마다 지향점이 다른 분야라서 용어 정의에 혼란이 있지만 가장 본질적인 역할에 대해서 생각해 봤으면 합니다.
솔루션을 연동할 때 가장 본질적인 컨셉을 파악해서 설계하지 않으면 본래 목적을 잃어 버리는 경우도 종종 현업에서 일어 나는 일인 듯 합니다.

미들웨어의 가장 핵심적인 역할은 비즈니스 로직(Business Logic)을 통합하고 처리하는 것으로 요약할 수 있겠습니다.
JBoss의 경우에도 그 동안 버전업을 통해서 많은 다양한 기능들이 추가되어 왔지만 비즈니스 로직을 처리하기 위한 다음 세 가지 컨셉은 변함이 없을 듯 합니다.
- Develop and Deploy business applications
- Integrate System, Process and Data across your entire enterprise
- Automate business processes

JBoss의 입장에서 ‘기업의 다양한 시스템과 프로세스 및 데이터를 통합’하기 위한 역할의 관점에서 본다면 최근에 기업 현장에 도입되고 있는 하둡 클러스터라는 시스템과 데이터 처리 프로세스 및 다양한 데이터와 메타데이터는 아주 중요한 부분이 되어 가고 있습니다.

즉, JBoss가 기업 환경에서 여전히 경쟁력이 있는 미들웨어의 지위를 유지하려면 하둡과의 연동을 통해서 비즈니스 로직(Business Logic)의 틀안으로 가져 올 필요가 있고 이것이 이번 전략적 제휴의 모티베이션(Motivation)입니다.

전체적인 연동 아키텍쳐는 아래와 같습니다.

REDHAT-1024x684

하둡 2.0을 활용하기 위해서 다양한 ‘포인트’에서 연동이 이루어지고 있지만 미들웨어의 관점을 가지고 ‘JBoss Data Virtualization’에 주목을 해 보겠습니다

JBoss Data Virutalzation은 위의 세 가지 컨셉 중에서 특히 기업 내부의 데이터 통합을 위한 툴입니다.
원래부터 아래와 같은 세 가지 목표를 가지고 있는 Data Services Platform이라는 솔루션이 업그레이드 되었습니다.
- Connect : 다양한 데이터 소스의 데이터에 접근할 수 있다.
- Compose: 직관적으로 비즈니스 관점에서 친숙한 데이터 모델(Data Model)을 만들 수 있다.
- Consume: 일관된 인터페이스로 데이터를 처리한다.

JB0041_DataServ_DataToActionableInfo_bizspeed_11519387_0114_jw

즉, JBoss Data Virtualization은 호튼웍스와의 제휴를 통해서 ‘Connect’의 관점에서 하둡 클러스터의 데이터셋을 자기가 관리 가능한 데이터 소스로 인식을 시키는 것에서 연동을 시작합니다.
이 부분은 특히 SAP HANA의 연동 부분에서 소개를 드린 적이 있습니다.

JBoss의 입장에서는 하둡이 비정형 데이터에 대해서 유연하게 테이블 뷰(View)를 부여할 수 있는 능력을 통해서 다른 비즈니스 로직용 데이터 소스들과 다양하게 ‘조인’하고 ‘블렌딩’하여 논리적인 데이터 모델을 사용자에게 제공합니다.
이 부분은 이른바 ‘논리적 데이터웨어하우스’라는 컨셉에 가장 부합하는 접근 방법입니다.
JBoss는 관계형 데이터베이스, ERP 등 기업용 어플리케이션, 하둡 클러스터의 데이터들을 한 곳으로 물리적으로 집중하는 방식이 아니라 실제 데이터는 각 시스템에서 처리하고 비즈니스 로직에 맞게 논리적인 뷰(Logical View)를 제공하는 것이 목적입니다.

이런 방식으로 미들웨어가 원래 가져야 할 역할에 충실하고자 하는 전략으로 이해하시면 되겠습니다.

국내에도 좋은 미들웨어들이 시장에서 선전하고 있는 상황입니다.
하둡 클러스터가 기업 현장에 들어 온다면 이 부분을 통합하는 것은 ‘새로운 기능’이 아니라 ‘본연의 역할’이라는 접근 방식도 좋을 듯 합니다.

레드헷과 호튼웍스의 전략적 제휴는 위의 미들웨어 뿐만 아니라 전방위적이기 때문에 앞으로도 진행에 따라 더 소개를 드릴까 합니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

Page 1 of 3123