Tags

하둡 보안 아키텍쳐와 Apache Knox의 역할 (New Features for Security and Apache Knox)

This article is based on Hortonworks Partner Contents and Expertise

빅데이터 및 하둡의 도입을 고려하는 데 있어서 가장 중요한 요소 중의 하나는 바로 데이터에 대한 보안에 대한 고려입니다.
두 가지 의미를 가진다고 볼 수 있겠습니다.
하둡 에코 시스템에서 하둡 클러스터 자체에 제공하고 있는 보안 기능과 이러한 보안 기능을 기업 내부의 보안 정책과 연동하는 부분이 그것입니다.

최근에 호튼웍스는 보안 업체의 인수를 포함하여 하둡 클러스터를 보안 측면에서도 안전한 시스템으로 만들기 위해서 많은 노력을 기울이고 있습니다.

기존의 하둡의 보안 논의에 대해서는 여러 기사를 통해서 소개를 드린 적이 있습니다.
하둡의 보안을 위한 체계
하둡에서 데이터 전송 시의 암호화

하둡의 보안 논의는 처음에는 주로 데이터 저장 및 전송 시의 암호화를 중심으로 논의가 되었다가 최근에는 하둡 클러스터의 전체 보안 체계를 구축하는 논의로 확대되고 있다는 점입니다.

그 중에서 핵심적인 역할을 하는 것이 Apache Knox라고 하는 일종의 API 게이트웨이 보안 솔루션입니다.

knox1
다이어그램에서 볼 수 있는 것처럼 Apache Knox는 하둡 클러스터와 의사소통하기 위한 ‘REST API Gateway’입니다.

이러한 게이트웨이를 통해서 하둡 클러스터에서 다음 네 가지의 중요한 역할을 담당합니다.
- Authentication (LDAP and Active Directory Authentication Provider)
- Federation/SSO (HTTP Header Based Identity Federation)
- Authorization (Service Level Authorization)
- Auditing

즉, 인증이나 권한 관리, 외부 인증 시스템과의 연동 및 ACL 등과 같은 보안 기능을 담당하는 요소가 되었습니다.

지난 주에 호튼웍스의 하둡 데이터 플랫폼 행사에서 Apche Knox에 대해 잘 설명이 되어 있는 슬라이드가 있어서 공유드립니다.
하둡의 보안에 대한 슬라이드

행사에서 나왔던 QnA 정리한 리스트가 있는 데 한 번 보시면 Knox의 역할에 대해서 참고하시기 바랍니다.

qna

그리고 호튼웍스 랩에서 보안 부분에 대한 정보를 모아서 소개하고 있으니 이 곳도 참조하시기 바랍니다.
Hortonworks Daba Lab

아파치 녹스는 하둡 클러스터의 보안은 물론이고 향후에 기업에 도입할 때 연동해야 할 보안 정책을 실행하기 위한 지점으로서도 중요하기 때문에 상세한 적용 방법과 연동 방법은 계속 업데이트하겠습니다.

———————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–

엔터프라이즈 하둡 및 “Data Lake”(Enterprise Hadoop and the Journey to a Data Lake

This article is based on Hortonworks Partner Content and Expertise

저의 고객과의 상호 작용이 저를 가르쳤다 한 가지가 있다면, 그것은 아파치 하둡은 데이터 센터를 파괴하지 않았지만 데이터는 그랬다는 것입니다. 최근 몇년 동안 새로운 유형의 데이터 폭발은 기술적으로도 경제적으로 데이터 센터에 큰 압력을 가하고 있으며, 엔터프라이즈 하둡은 결과의 현대 데이터 아키텍처의 역할은 점점 중요해 지고 있습니다.

다운로드: 하둡과 현대 데이터 아키텍처.

성공적인 Hadoop 여행은 일반적으로 “data lake”로 이어지는 새로운 분석 응용 프로그램에서 시작됩니다. 점점 더 많은 응용 프로그램은 데이터의 센서 / 기계 , 서버 로그 , 클릭 스트림 , 및 기타 소스 의 새로운 유형에서 가치를 이끌어 낼 수 있도록 합니다. Hadoop이 가지는 데이터 호수 모양으로 크고 광범위한간에 깊은 통찰력을 제공하는 공유 서비스로 실행하는 기존 엔터프라이즈 시스템과 도구와 통합하여 데이터의 호수 여행을 보완 할 수있는 방법으로 데이터가 다양합니다.

08

하둡과 기존 데이터 시스템 : 현대 데이터 아키텍처

그것은 데이터의 저장과 처리를 저렴한 비용으로 확장 접근을 제공하고, 세계에서 가장 큰 웹 속성의 요구에 확장이 증명되고 있기 때문에 기존의 데이터 시스템을 보완은 Hadoop을 사용하는 것은 매우 설득력이있습니다.

01

하둡과 “읽기에 대한 스키마”의 가치

그것도 데이터베이스에 로드 하기 전에 지정된 구조 ( 또는 스키마 ) 로 변환 하는 데이터를 필요로하고 기존의 관계형 데이터베이스 와 달리 Hadoop 은 분석가와 개발자는 다음 의 요구에 맞춘 구조 을 적용 할 수 있으며, 그 원시 형식으로 데이터를 저장 하기에 초점 을 맞추고 그들은 데이터에 액세스 할 때에는 자신의 애플리케이션에 이상적입니다 . Hadoop 의 ” 스키마 보기 설정 “접근은 즉시 어떤 형식으로 데이터를 저장하고 필요할 때 매우 유연하고 적시에 배치 · 구조를 적용 하기 위해 사용자에게 권한을 주는 반면 기존 의 ” 스키마 온 라이트 ‘ 의 접근 방식은 더 많은 전망과 IT 의 개입을 필요로 합니다.

 

예를 들어, 기존의 응용 프로그램은 그것이 고객 상호 작용의 단일 뷰를 얻으려면, 클릭 스트림 데이터 및 CRM 데이터를 결합하여 존재 하고 있다고 가정합니다. 새로운 유형의 데이터를 사용할 수있게되면 , 그것은 데이터를 쉽게 고객의 뷰를 풍부하게하기 위하여 추가 될 수 있습니다 ( 예 : 서버 로그 나 감정 데이터 ) 관련 될 수 있습니다. 키의 구분 은 데이터가 저장되어 있을 때 , 그것은 특정 응용 프로그램 에서 그 구조와 연결을 선언 할 필요가 없습니다.

하둡 여행은 일반적으로 새 분석의 응용 프로그램과 함께 시작 …

Hadoop의 사용량은 일반적으로 이전에 캡처되지 않은 데이터를 연료로하는 새로운 분석 응용 프로그램을 만드는 것부터 시작합니다. 응용 프로그램은 특정 산업이나 조직에만 경향이 있지만, 관련 데이터의 특정 유형의 렌즈를 통해 이러한 응용 프로그램의 많은 유사점이 있습니다.

산업에 걸쳐 분석 애플리케이션의 예는 다음과 같습니다 :

07

… 데이터 호수로 이어질

Hadoop은 다른 데이터 소스를 사용하는 응용 프로그램의 범위와 규모의 지속적인 성장과 엔터프라이즈 Data Lake의 비전을 구체화 하기 시작합니다. 내부 및 외부 데이터 소스를 포함한 여러 사일로 에서 데이터를 결합하여 당신의 조직은 모두 미리 듣고 어떻게 알았으며 복잡한 질문에 대한 답변을 찾을 수 있습니다.
예를들어, 연간 1억대의 고객 상호 작용에 대한 대규모 미국의 홈 센터의 데이터는 다양한 마케팅 캠페인 및 온라인 고객 브라우징 동작과 트랜잭션 데이터를 상호 연관에서 기업을 예방, 고립된 사일로 간에 저장 했다. 무엇이 이 큰 소매 업체가 필요한 것은 ” 골든 기록 “의 POS 거래, 택배 및 웹 사이트 트래픽을 포함한 모든 기간, 모든 채널에 걸쳐 통일된 고객 데이터 입니다 .
황금 레코드를 현실화 하는 것으로, 데이터의 호수는 주문을 받아서 만들어진 쿠폰, 프로모션, 이메일 등 타겟 마케팅 캠페인에 대한 중요한 통찰력을 제공 및 지원함으로써 여러 액세스 방법의 일반적인 데이터 세트 ( 일괄 처리, 실시간 스트리밍 , 메모리 등 ) 를 사용자가 변환하고 여러 가지 방법으로 뷰 데이터 (각종 스키마 사이) 및 폐쇄 루프 분석 을 확장 할 수 있습니다. 어느 때보다 가까운 실시간으로 타임 투 통찰력을 가진 응용 프로그램입니다.

실제 의미에서, Data Lake는 세 가지 주요 특성을 특징으로 합니다 :
1. 모든 데이터가 장기간 삶의 원천 뿐만 아니라 모든 처리된 데이터를 모두 수집합니다 .
2. 여러 사업 부문 전체의 사용자는 세련된 확인 조건에 관한 데이터를 제공 할 수 있습니다.
3. 공유 인프라를 통해 여러 데이터 액세스 패턴을 가능하게 합니다. 메모리 및 기타 처리 엔진, 검색 , 온라인 대화 형 배치 .

데이터가 기하 급수적으로 성장을 계속하고 있으며, 기업이 Hadoop 에 대한 투자는 현대 데이터 아키텍처의 효율성 및 엔터프라이즈 데이터 Lake 기회 모두를 위한 전략을 제공 할 수 있습니다.

최종 결과는 확장성과 낮은 비용을 기반으로 한 통찰력입니다.

Hadoop, the Data Lake, and the Modern Data Architecture의 좀더 자세한 설명을 원한다면 다운로드 하십시오. download our whitepaper.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

하둡과 LDAP을 연동하여 기업 환경에 적용하는 방법 (하둡 GroupMapping)

This article is based on Hortonworks Partner Content and Expertise

하둡을 기업 환경에서 운용되는 시스템이라는 측면에서 적용 방법을 소개하고 있습니다.
하둡 파일시스템을 기업의 다양한 스토리지 시스템에 적용하는 방법
하둡은 기업 환경에 어떻게 적용되어야 하는가
SQL 서버에 있는 데이터를 하둡으로 임포트하는 방법
하둡을 도입할 때 반드시 고려해야 할 점

그 중에서도 LDAP은 기업 내부의 유저(사용자)와 그룹(사용자 그룹)을 통합적으로 관리하는 시스템으로 이미 많은 정책이 적용이 되어서 운영되고 있는 중요한 시스템일 것입니다.
기본적으로 LDAP의 다양한 그룹을 하둡에 적용하기 위해서는 두 가지 방법이 있습니다.
첫 번째는 운영체제 레벨에서 LDAP 그룹(LDAP groups)을 읽어 들이도록 설정하는 것이고 두 번째는 하둡 클러스터 레벨에서 그룹 맵핑(Group Mapping)을 설정하는 방법입니다.

이번에는 보다 유연하게 적용이 가능한 두 번째 방법을 통해서 LDAP과의 연동 방법을 살펴보도록 하겠습니다.

LDAP과의 연동 절차
- LDAP에 하둡의 서비스 계정(Service Accounts)를 생성하기
- HDFS의 네임노드(NameNode)와 YARN 리소스매니저(ResourceManager)를 셧다운하기
- 하둡의 core-site.xml 파일을 수정하여 LDAP 서버를 설정하기
- HDFS의 네임노드(NameNode)와 YARN 리소스매니저(ResourceManager)를 재시작하기
- 그룹 맵핑을 확인하기

1. LDAP에 하둡의 서비스 계정(Service Accounts)를 생성하기
먼저 샘플로 services.ldif를 한 번 검토해 보기 바랍니다.
이 파일에서 hcal, mapred, hdfs, yarn, hbase, zookeeper, oozie, hive와 같은 하둡의 서비스 어카운트가 설정되어 있는 것을 확인할 수 있습니다.
물론 Hadoop 그룹을 만들고 하둡 서비스 어카운트를 멤버로 등록시킨 것도 함께 확인할 수 있습니다.

아래 ldapadd 명령을 통해서 LDAP 시스템에 등록을 시키면 됩니다.

ldapadd -f /vagrant/provision/services.ldif -D cn=manager,dc=hadoop,dc=apache,dc=org -w hadoop

그 다음에는 다음 문서를 참조하면서 Hortonworks Data Platform documentation HDFS 네임노드와 YARN 리소스매니저를 셧다운합니다.

2. 하둡의 core-site.xml 파일을 수정하여 LDAP 서버를 설정하기
먼저 수정을 하기 전에 기존의 core-site.xml 파일을 백업하고 아래 샘플 설정을 보면서 LDAP과의 연동을 위한 설정을 진행합니다.
보통 LDAP 연동을 위해서는 bind user, bind password와 같이 LDAP에 특화된 변수에 대한 값을 설정할 필요가 있습니다.
이 때 이 값들을 LDAP에 있는 services.ldif와 크로스체크를 해서 문제가 없도록 한 번 더 살펴 보면 됩니다.

core

그 다음에 네임노드와 리소스매니저를 재기동하면 core-site.xml을 읽어 들이면서 연동을 마무리합니다.

3. 그룹 맵핑을 확인하기
간단히 hdfs groups 명령을 이용하면 LDAP에서 그룹을 가져와서 보여 주므로 연동이 잘 되었는 지 바로 확인할 수 있습니다.

이상에서 LDAP과 연동하여 액세스 컨트롤을 통합해서 관리하는 방법을 알아 봤습니다.
앞으로도 기업의 시스템과 연동해서 하둡 클러스터가 독립된 관리 시스템이 아니라 기업의 기버넌스의 일부로 관리될 수 있도록 하는 방법을 소개해 드리도록 하겠습니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

하둡 데이터를 오픈소스 분석툴인 펜타호를 통해 분석하는 방법

This article is based on Hortonworks and Pentaho Partner Content

하둡 클러스터를 구축한 이후에 누가 이용할 것인가에 대한 문제를 한 번 검토해 볼 필요가 있습니다.
초기에는 주로 개발 부서가 인발브가 되어서 논의가 이루어 지지만 궁극적으로 누가 이용할 것인지를 살펴 보면 어떤 요소들이 더 필요한 지에 대한 인사이트를 얻을 수 있을 것입니다.

기존에 BI를 활용하는 부서의 입장에서 보면 기본적으로 마케팅 분석가나 생산관리 혹은 품질 관리 부서에서 가장 많이 활용을 하고 있으며, 그 외에 데이터웨어하우스를 구축하는 데 필요했던 각 데이터마트의 데이터를 이용하던 조직들이 활발하게 이용하고 있습니다.

이런 관점에서 보면 빅데이터 하둡 클러스터에 모인 데이터를 이러한 분석가들이 쉽고 직관적으로 이용해서 인사이트를 얻도록 도와 주는 쪽의 구성 요소는 하둡 클러스트의 구축 못지 많게 중요한 부문으로 떠오르고 있습니다.

다른 글에서 다양한 연동 방법에 대해서 소개를 드렸습니다.
HIVE를 이용해서 다른 분석툴과 연동하는 방법
하둡과 SAP 제품들을 연동하는 방법
자사의 미들웨어를 하둡과 연동한다는 것의 의미와 방법

일반적으로 HIVE는 하둡 클러스터의 데이터셋에 대해서 테이블 뷰를 제공하고 JDBC와 같은 표준 데이터베이스 연동툴을 통해서 접근하는 것이 가능하기 때문에 가장 쉬운 연동 포인트 중의 하나입니다.

기본적으로는 HIVE의 테이블 뷰를 하둡 클러스터에서 구성하고 분석툴에서 이러한 테이블 뷰를 다른 데이터셋과 마찬가지 방법으로 다룰 수 있도록 구성하는 것이 일반적인 솔루션 개발 프로세스입니다.

다양한 상용 분석툴이 하둡과의 연동을 발표하고 있지만 오픈 소스 분석툴인 펜타호(Pentaho)도 빅데이터 분석 및 시각화에 많은 노력을 기울이고 있어서 분석가들을 위한 다양한 솔루션을 제공하고 있습니다.

그래서 하둡 데이터 통합(Data Integration)의 관점에서 펜타호의 접근 방법을 간단히 소개하고자 합니다.

시각적인 ETL 툴을 통한 데이터 정제 과정

hadoop-drag-and-drop

펜타호는 하둡 데이터셋을 포함한 다양한 데이터 소스의 데이터를 액세스하고 변환하기 위한 다양한 라이브러를 제공하는 방식으로 접근하고 있습니다.
이러한 라이브러리를 활용하는 시각화툴을 통해서 드래그-앤-드롭 방식으로 메타데이터를 생성하도록 지원하고 있습니다.
이러한 시각화툴을 통해서 데이터 맵핑, 정합성 테스트 등을 하나의 파이프라인으로 연결해서 자동화함으로써 분석가들이 실제로 분석을 하기 위한 데이터셋을 손쉽게 준비할 수 있도록 하고 있습니다.

시각적인 툴을 통해서 코딩없이 데이터 분석 및 시각화
이렇게 정제된 데이터셋에 대해서 맵리듀스(MapReduce) 잡을 생성하거나 SQL문을 통해서 원하는 결과를 얻는 방법도 있지만 하둡 클러스터의 데이터셋을 보다 많은 사람들이 이용하기 위해서는 코딩 없이 분석이 가능한 툴이 중요한 요소 중의 하나입니다.

map_0

펜타호는 기존의 데이터베이스를 병렬적으로 분석해서 속도를 높히는 엔진을 보완하여 하둡의 데이터셋에 대해서도 병렬적으로 분석하여 결과를 빠르게 도출할 수 있도록 진화시키고 시각화 툴에 연동시킴으로써 별도의 코딩없이 데이터를 분석하는 방법을 제공합니다.

하둡 클러스터의 데이터셋 이외에도 몽고디비 등의 NoSQL 데이터와의 통합 분석 등의 기능을 지원함으로써 기업이 보유하고 있는 모든 데이터 자산을 가장 효율적으로 이용하기 위한 분석툴을 제공합니다.

이러한 다양한 기능이 오픈소스 커뮤니티를 통해서 플러그인 방식으로 계속 통합됨으로써 기존의 상용 솔루션이 커버하지 못 하는 영역의 분석에 대해서도 지속적으로 그 범위를 확대하고 있습니다.

구체적인 연동 방법과 분석툴에 대한 소개는 계속 드리도록 하겠습니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

호튼웍스 하둡을 검색엔진과 연동하는 방법과 아키텍쳐

This article is based on Hortonworks Partner Content and Expertise

그 동안 호튼웍스 하둡과 다른 솔루션을 연동해서 기업에 최적화된 데이터 플랫폼을 구축하기 위한 사례들을 많이 소개해 왔습니다.

자사의 미들웨어를 하둡과 연결한다는 것의 의미와 방법
호튼웍스 하둡과 NoSQL을 연동하는 방법
엔터프라이즈 레벨 실시간 시스템의 최강 조합 (하둡 + 인메모리 데이터베이스)
HIVE를 통해 다른 분석툴과 연동하는 방법
엑셀로 하둡 데이터를 간단하게 연동하는 방법

이상과 같이 하둡은 기존의 데이터 처리 시스템을 대체하는 부분보다는 기존의 엔터프라이즈 데이터 시스템을 보완하면서 확장성 있게 다양한 데이터셋을 처리할 수 있는 플랫폼이라는 관점에서 보는 것이 좋겠다는 의견입니다.

최근에 하둡 2.0이 YARN(Yet Another Resource Negotiator)를 도입하면서 다른 솔루션과 연동할 수 있는 포인트가 다양해 졌기 때문에 기존의 솔루션이 가진 특성이나 컨셉에 최적화된 연동 방법을 고민하고 아키텍쳐를 구성하는 것이 필수적인 요건이 되었습니다.

이번에는 검색엔진과의 연동을 통해서 대량의 데이터를 인덱싱(Indexing)하여 필요한 때에 실시간으로 데이터를 분석하고 검증할 수 있는 방법에 대해서 소개해 드리려고 합니다.
이미 빅데이터와 검색엔진과의 연동을 통한 효과는 다른 많은 기업들에 의해서 검증이 되고 있습니다.
예를 들어, 스플렁크(Splunk)는 이른바 ‘머신 로그 데이터의 구글’이라는 별명답게 데이터 센터에서 생성되는 많은 머신 로그들을 인덱싱하여 문제가 있는 부분을 실시간으로 식별하고 문제를 해결하는 데 커다란 역할을 하고 있습니다.
최근에는 하둡과의 커텍터(Connector)를 제공하여 하둡과의 연동을 강화화고 있는 추세이니 관련 자료를 참조해 보면 좋은 힌트를 얻을 수 있겠습니다.

오늘은 ElasticSearch라는 빅데이터 검색 엔진과 호튼웍스 하둡의 연동 시나리오를 통해서 검색 엔진과의 연동을 통해서 대량의 데이터셋에 대한 실시간 검색과 데이터 접근 방법에 대한 사례를 살펴 보겠습니다.

아래 아키텍쳐는 ElasticSearch와 하둡이 연동되는 구성도이지만 일반적인 검색엔진 솔루션과 하둡을 연동하는 데도 비슷한 방법이 적용됩니다.

es1

검색엔진
검색엔진은 새로운 문서(Documents)를 거의 실시간으로 인덱싱해서 사용자가 키워드를 쿼리(Querying)했을 때 바로 접근할 수 있도록 하는 것이 주 역할입니다. 이 예에서 쓰인 ElasticSearch도 역시 아파치의 루씬(Lucene)을 기반으로 해서 인덱스 파일을 클러스터에 분산시켜서 확장성 있게 저장하는 기능을 지원합니다.
만약에 인덱스를 저장하는 노드에 문제가 생길 경우에는 자동으로 다른 노드로 그 인덱스를 저장하여 분산 환경에서도 문제가 없도록 관리합니다.
위 아키텍쳐에서는 하둡 파일시스템(HDFS)를 이용해서 인덱스 파일을 분산시켜서 저장하는 모델을 가져 갔습니다.
컨피규레이션(Configuration)에서는 각 인덱스를 몇 개의 부분(Shards)으로 나눌 것인지와 이 부분(Shards)을 몇 개까지 복제할 것인 지 등을 설정하여 클러스터를 관리할 수 있습니다.

플룸(Flume)
플룸(Flume)은 여러 번 소개를 드렸던 하둡 에코 시스템의 컴포넌트입니다.
많은 데이터 소스에서 로그 데이터를 수집하여 안정적으로 스트리밍(Streaming)하여 하둡 파일시스템(HDFS)에 저장하는 기능을 담당합니다.
위 예에서는 각 머신 혹은 서버에 인스톨되어 있는 에이전트(Agent)를 통해서 Flume Collector가 데이터를 수집한 다음에 ‘저장’을 하기 위한 스트리밍 모듈과 ‘인덱싱’을 위한 스트리밍 모듈에서 각각 데이터를 처리하도록 데이터 파이프라인(Data Pipeline)을 만들었습니다.
하둡 파일시스템(HDFS)에 저장된 데이터는 이 후에도 HIVE/Pig/MapReduce 등의 처리툴을 통해서 검색엔진에서 언제든지 활용 가능하도록 구성되었습니다.

시각화 및 검색 데이터 인터페이스
이 예제에서는 Kibana라는 웹브라우저 기반의 분석 및 검색 엔진 인터페이스를 제공하는 툴을 통해서 결과를 검색하도록 구성했습니다.
Kibana도 역시 아파치 오픈 소스 프로젝트이고 특히 루씬(Lucene)과 같은 검색엔진에 대한 인터페이스를 제공하고 그 결과를 시각화하는 데 특화된 툴입니다.

es4

대용량의 데이터셋에 검색 기능을 제공하는 것은 특히 데이터 센터에서 각종 서버 및 네트워크의 문제를 바로 식별하는 데 이미 검증이 된 사례입니다.
그 외에도 보안 및 각종 Fraud 문제에 대한 접근 방법으로도 많은 주목을 받고 있습니다.
완전히 비정형 데이터라고 볼 수 있는 문서에 대한 가장 효과적인 접근 방법이라는 측면에서도 하둡 에코 시스템과의 연동을 통해서 이 후에 ECM 등의 다른 분야로도 확장될 수 있는 영역이라는 생각입니다.

ElasticSearch와 하둡의 연동에 대한 세부 사항‘을 참조하시면 다른 검색엔진을 하둡과 연동하기 위한 많은 팁을 얻을 수 있습니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

Page 1 of 212