Tags

호튼웍스 하둡 플랫폼으로 서버 로그 데이터를 분석하여 보안 위협을 감지하는 방법

This article is based on Hortonworks Partner Content and Expertise

최근에 빅데이터를 활용한 실시간 보안 위험 감지 및 분석 시스템에 대한 관심이 급격히 커졌습니다.
물론 기업 보안의 영역에는 그 동안 많은 독립적인 시스템들이 존재해서 그 역할을 해 왔지만 최근에 그러한 독립적인 시스템에 대한 효용성이 도마에 오르는 듯 합니다.

보안 위협은 단순히 외부의 공격이나 접근 시도 뿐만 아니라 기업 내부 혹은 일정한 권한을 가진 파트너사와 같이 전체적인 곳에서 발생하기 때문에 단순히 네트워크에 앞 단에 구성된 보안 시스템은 그 정도 일부만을 담당할 뿐이라는 것이 전문가들의 공통된 지적인 듯 합니다.

앞으로의 보안 시스템은 IT 시스템 전체의 보안 요소를 분석할 수 있는 포괄적인 관점이 필요하다는 것으로 의견이 모아지는 듯 합니다.
즉, 네트워크에 대한 다양한 공격 시도에서 부터 내부 ID의 서버 접근이나 데이터의 흐름 등 전체적인 데이터로 부터 이상 현상을 탐지해야 한다는 접근 방법입니다.

호튼웍스 등 하둡 전문 업체들은 이 분야에서 하둡이 가진 포괄적인 데이터 처리 능력이 활용될 수 있을 것으로 보고 있으며, 최근에는 다양한 보안 전문 업체들과 협업하여 이른바 ’360 degree security’에 대한 솔루션을 경쟁적으로 개발하고 있습니다.

그래서 이번에는 이러한 포괄적인 데이터 보안을 적용하는 데 있어서 가장 핵심적인 데이터인 서버 로그 데이터를 하둡에서 어떻게 처리하고 인사이트를 신속하게 얻을 수 있는 지에 대해 살펴 보고자 합니다.

먼저 간단한 데모 영상을 보면서 전체적인 흐름을 파악해 보겠습니다.

요약하자면, 호튼웍스 데이터 플랫폼을 활용하여 ‘raw’ 서버 로그 데이터를 정제하고 엑셀을 이용하여 손쉽게 분석하는 것이 전체 시나리오입니다.
먼저 서버 로그 데이터의 속성을 한 번 다시 검토해 봅시다.
서버 로그 데이터는 네트워크와 서버의 운영에서 발생하는 이벤트 데이터를 저장한 로그파일들이기 때문에 단순히 전체 시스템의 성능을 파악하는 용도 뿐만 아니라 보안 관리를 위해서도 특히 유용한 데이터입니다.

서버 로그 데이터의 다양한 적용 사례
기업에서는 서버 로그 데이터 분석을 통해서 크게 아래 와 같은 두 가지 질문에 대한 답을 신속하게 얻을 수 있습니다.
1. Security : 만약에 보안 누스(Security breach)가 의심스러운 상황이라면 서버 로그 데이터를 어떻게 활용하여 이러한 부분을 정확히 식별하고 원인을 지정할 수 있을 것인가?
2. Compliance : 대기업의 경우에는 다양한 법규 혹은 지침에 의해서 시스템을 관리해야 합니다. 시스템 감사와 같은 상황에서 이러한 룰(Rule)이 정확히 지켜 지고 있는 지 혹은 문제가 발생하는 지에 대해서 어떻게 식별하고 근거를 만들 수 있을 것인가?

서버 로그 분석 샘플을 실행하기 위한 프로세스
1. 대량의 로그 데이터를 수집하고, 병합하고, 하둡 클러스터로 효율적으로 이동시키기 위해서 플룸(Flume)을 설치하고 세팅한다.
2. 서버 로그 데이터를 발생시킨다.
3. 서버 로그 데이터를 엑셀로 임포트한다.
4. 엑셀 파워 뷰와 같은 툴로 로그 데이터를 시각화(Visualization)한다.
(샘플 예제에서는 다른 요소들을 배제하고 가장 핵심적인 과정만 수행합니다.)

Step 1 : 분석을 위해서 샘플 로그 파일을 받아 놓습니다.

샘플 서버 로그 파일

<-- 다운로드 받으세요.
'호튼웍스 샌드박스'로 테스트하기 위해서 압축을 풀어서 저장합니다.

Step 2 : 아파치 플룸(Flume)을 세팅하고 론칭합니다.
아파치 플룸(Flume)은 대량의 로그 데이터를 수집해서 하둡 파일시스템(HDFS)로 효율적으로 읽어 들이기 위한 분산 프레임워크라고 보시면 되겠습니다.
아키텍쳐적으로는 데이터 소스의 데이터를 다른 저장소로 스트리밍하기 위한 심플한 구조를 가지고 있습니다.
아파치 플룸은 데이터 플로우가 중간에 실패하거나 하는 상황에 대해서 빠르게 복구하는 데 중점을 두고 있어서 대량의 로그 파일을 이동하는 데 가장 적합하고 유용한 툴입니다.

플룸은 보통 다음과 같이 활용합니다.
- 다양한 데이터 소스로부터 데이터를 수집하여 하둡 파일시스템(HDFS)으로 읽어 들인다.
- 대용량의 웹로그 데이터를 실시간으로 수집한다.
- 입력되는 데이터가 하둡 파일시스템(HDFS)에 원활하게 저장할 수 없을 만한 속도로 들어 오면 자동으로 읽는 속도를 조정한다.
- 데이터 이동시의 문제를 확인해서 재실행 등의 방법으로 데이터 이동을 보장한다.

- 분산 아키텍쳐로 입력되는 데이터의 양에 따라서 수평적으로 확장할 수 있다.

대량의 로그 데이터의 이동을 ‘보장’하기 위한 안정적인 시스템을 직접 개발하는 것은 아주 어려운 일이므로 플룸(Flume)이 가진 아키텍쳐를 활용하면 대량의 데이터 소스에서 나오는 데이터 로그를 원활하게 하둡 파일시스템(HDFS)로 읽어 들일 수 있습니다.

DevGuide_image00

위 다이어그램은 일반적인 데이터가 플룸(Flume)을 통해서 흘러가는 단계를 보여 주고 있습니다.
데이터 로그를 수집하고자 하는 데이터 소스에 플룸(Flume) 에이전트가 깔리고 옮길 목적지를 지정하면 전체적인 과정을 플룸이 안정적으로 운영합니다.
플룸을 세팅하는 자세한 사항은 플룸 프로젝트 페이지에서 확인하세요.

Step 3: 플룸(Flume) 실행하기
호튼웍스 샌드박스가 윈도즈에 인스톨되었다고 가정하고 SSH로 하둡 클러스터에 접속하겠습니다.

Host Name (or IP address): 127.0.0.1
Port: 2222

그리고 ID와 패스워드를 입력해서 호튼웍스 샌드박스에 접속합니다.

아래와 같은 명령으로 실행시킵니다.

flume-ng agent -c /etc/flume/conf -f /etc/flume/conf/flume.conf -n sandbox

Step 4: 샘플 서버 로그 데이터를 발생시키기
이제 샘플 데이터를 발생시키기 위해서 간단한 파이썬(Python) 스크립트를 실행시키고 이 데이터에 대해서 HCatalog를 이용해서 테이블 뷰를 만들겠습니다.

HCatalog는 여러 번 소개드렸던 것처럼 데이터셋에 일종의 테이블 뷰(Vew)를 연관시켜서 이 데이터를 어떻게 해석할 것인지의 틀을 부여하는 모듈입니다.

먼저 샘플 예제의 ‘generate_logs.py’ 스크립트를 호튼웍스 샌드박스로 복사합니다.
예를 들어 WinSCP를 사용한다면 아래와 같이 진행하세요.

그 다음에 위의 스크립트를 실행시키면 샘플 데이터 로그 파일이 생성됩니다.

이제는 HCatalog를 이용해서 테이블 뷰를 만듭니다.

hcat -e "CREATE TABLE FIREWALL_LOGS(time STRING, ip STRING, country STRING, status STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' LOCATION '/flume/events';"

생성된 테이블 뷰는 HUE와 같은 웹 관리 콘솔을 통해서 확인할 수 있습니다.

Step 5: 서버 로그 데이터를 엑셀로 임포트하기
많은 사용자들이 엑셀을 통해서 데이터를 분석하기 때문에 다른 비싼 BI툴보다도 오히려 엑셀과 연동함으로써 손쉽게 결과를 분석할 수도 있습니다.
자세한 연동 방법은 다른 블로그에서도 설명을 드린 것처럼 직관적입니다.

호튼웍스 ODBC driver는 엑셀뿐만 아니라 다른 BI툴도 기존에 익숙한 표준적인 방식으로 연동할 수 있게 해 줍니다.

Step 6: 데이터를 시각화하기
데이터를 시각화하면 네트워크 데이터를 분석해서 이슈를 포괄적으로 이해하는 데 많은 도움이 됩니다.
만약에 DOS(Denial of Service) 공격을 분석하고자 한다면 대략 다음과 같이 데이터를 검토해 볼 수 있겠습니다.

  • 나라 별로 네트워크 트래픽을 리뷰하기
  • 특정한 나라를 확대해서 자세히 살펴 보기
  • 공격 IP 어드레스의 리스트를 만들기

파이어월 로그 데이터”<firewall_logs>” 테이블을 열어서 Status 칼럼을 클릭해서 ERROR를 체크하고 나서OK를 클릭하면 인증이 되지 않은 IP어드레스의 리스트를 볼 수 있습니다.
이 데이터는 바로 파이어월에 업데이트해서 이러한 IP어드레스를 차단하는 등의 후속 작업에 활용할 수 있습니다.

이상 샘플 데모를 간단하게 설명했지만 이 과정에서 하둡이 다양한 데이터 소스의 데이터를 신속하게 처리할 수 있다는 기능은 독립적인 보안 시스템이 아니라 보안에 영향을 미칠 수 있는 모든 시스템들의 로그를 함께 분석할 수 있다는 가능성을 보여 주고 있습니다.

예제에서 본 것처럼, 파이어월의 데이터 뿐만 아니라 내부의 접속 시도, 접속 IP, 접속한 시간 및 접속해서 했던 각종 Activity 로그 등을 종합적으로 판단함으로써 ’360 degree security’에 활용될 수 있겠습니다.

이 분야는 현재 다각도로 논의되고 있고 계속 발전하는 곳이기 때문에 한국의 보안 기업들도 하둡 기반의 포괄적인 보안 솔루션의 개발이라는 목표에 힌트가 되었으면 합니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

실시간 하둡의 기반 스톰(Storm)의 컨셉과 적용 방법 (The concept of realtime hadoop with storm)

This article is based on Hortonworks Partner Content

그 동안 실시간 처리 시스템 혹은 리얼타임 시스템으로서의 하둡에 대해서 여러 가지 기사를 통해서 소개를 드렸습니다.
엔터프라이즈 레벨 실시간 시스템의 최강 조합 (하둡 + 인메모리 데이터베이스)
리얼타임 하둡의 가능성
실시간 하둡 데모와 간단한 테스트 코드

이상의 글에서 설명드렸던 것처럼 YARN(Yet Another Resource Negotiator)의 도입으로 기업이 데이터를 어떤 방식으로 처리할 것인지의 니즈에 맞춰서 처리 방식을 배치, 인터랙티브 SQL, 온라인, 스트리밍 등 다양하게 적용할 수 있도록 진화되었습니다.
그 중에서도 스트리밍 되는 대량의 이벤트를 실시간으로 처리하는 시스템은 하둡의 가능성을 극적으로 높혔다는 것에 대부분 동의할 것으로 생각합니다.

센서나 각종 서버 등에서 발생하는 대량의 이벤트 로그는 그 데이터 포맷이 정형화되어 있지 않다는 점과 대량으로 발생한다는 두 가지 측면에서 하둡을 합리적인 옵션으로 고려할 만한 결정적인 이유를 만들고 있습니다.
그래서 이러한 실시간 처리 시스템을 가능하게 하는 스톰(Storm)의 컨셉과 설계할 때 어떤 부분에 주안점을 두었는 지를 좀 더 자세히 살펴 보려고 합니다.

스톰-YARN의 결합은 하둡클러스터에서 하둡 파일시스템(HDFS)뿐만 아니라 HBase의 리소스도 함께 사용할 수 있게 해 주기 때문에 실시간 시스템을 어떻게 적용할 지에 대해서 많은 유연성을 제공합니다.

Elasticity
스톰을 설계할 때 염두해 두었던 가장 핵심적인 설계 철학은 탄력성(Elasticity)를 부여하는 것이었다고 합니다.
(It provides a huge potential for elasticity. Real-time processing will rarely produce a constant and predictable load.)

즉, 실시간 처리 시스템은 시스템에 대한 로드를 미리 예상하는 것이 어렵기 때문에 기반 파일시스템 및 처리 시스템이 확장성을 가져야 한다는 점입니다.
하둡은 데이터 노드를 신속하게 확장함으로써 ‘용량’ 뿐만 아니라 ‘처리 능력’도 확장 가능한 시스템이기 때문에 하둡과 궁합이 맞는 시스템으로 판단했습니다.
하둡을 YARN에서 운용함으로써 시스템의 로드가 피크를 향해 가면 그 동안 배치 처리에 운용되던 리소스를 빌려 와서 처리를 하고 결과가 마무리 되면 다시 다른 작업에 돌려 줄 수 있습니다.

Launch Storm Cluster
스톰(Storm)은 이제 하둡 클러스터 관리 툴인 Ambari와 통합이 되어 있기 때문에 손쉽게 인스톨할 수 있습니다.
인스톨 방법은 위 링크에서 확인하시기 바랍니다.

실제로 스톰을 론칭하는 것은 간단합니다.
storm-yarn launch
여기서 ‘storm-yarn.yaml’은 스톰의 동작을 정해 놓기 위한 컨피규레이션(Configuration) 파일입니다.
예를 들어, 이 파일에는 ‘스톰 관리 모듈(Storm Supervisor)’를 처음에 몇 개로 론칭할 지를 지정하는 ‘master.initial-num-supervisors’ 혹은 각 스톰 관리 모듈을 위해서 할당해야 하는 메모리 사이즈를 지정하는 ‘master.container.size-mb’ 등과 같은 퍼래미터(Parameter)를 지정할 수 있습니다.
* Storm Supervisor는 실제 Worker Node에 생성되면 실제 부여된 태스크(task)를 관리하며, 맵리듀스의 Task Tracker와 비슷한 역할을 합니다.

yarncontainer

이 명령어를 실행시키면 아래와 같은 과정을 통해서 론칭이 진행됩니다.
1. 스톰-YARN은 YARN의 RM(Resource Manager)에게 스톰 AM(Application Master)을 론칭하기 위한 리소스를 요청합니다.
2. 스톰 AM은 각각 ‘스톰 님버스 서버(Storm Nimbus Server)’와 ‘스톰 UI(Storm UI) 서버’를 론칭합니다.
스톰 님버스 서버는 일종의 관리 서버로서 잡트랙커(Job Tracker)와 비슷하게 실행 코드를 클러스터에 분배하는 역할을 합니다.
스톰 UI 서버는 웹 인터페이스로 스톰을 관리하기 위한 서버로 이해하시면 됩니다.
3. 스톰 AM은 각 Worker Node에 스톰 관리 모듈(Storm Supervisor)를 실행하기 위한 리소스를 요청해서 론칭합니다.

그래서 ‘스톰 님버스 서버’가 각 태스크를 ‘스톰 관리 모듈’에 분배하고 ‘스톰 관리 모듈’은 부여된 태스크를 관리하는 구조로 요약할 수 있습니다.

Execute Storm Topologies
여기서 ‘스톰 토폴로지(Storm Topologies)’는 이벤트 스트림을 발생시키는 기능과 처리하는 기능을 하나의 워크플로우로 묶어 놓은 실행 코드로 생각하면 되겠습니다.

yarn2

위 다이어그램에서 보는 것처럼, 스톰 님버스 서버가 실행해야 할 태스크를 Storm superviser에 할당하면 Storm superviser는 실제 실행할 프로세스를 생성해서 ‘스톰 토폴로지’를 실행합니다.
그리고 Storm superviser는 실행 과정을 주기적으로 스톰 님버스 서버에게 보고합니다.

실제로 스톰을 실행하는 실행 코드와 데모는 아래 링크에서 다운로드해서 실행해 보면 전체적인 프로세스를 쉽게 이해할 수 있을 것입니다.
스톰을 이용한 간단한 워드카운트 데모
운송 회사의 예를 가지고 스톰을 이벤트 스트리밍 처리에 활용하는 예제 샘플

스톰-YARN은 하나의 하둡 클러스터에서 실시간 스트리밍을 처리할 수 있는 기반을 제공함으로써 그 활용 범위는 이미 여러 가지 사례를 통해서 적용되고 있습니다.

실시간 하둡의 사례에 대해서는 앞으로도 지속적으로 소개하도록 하겠습니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

HCatalog를 통해서 비정형 데이터에 테이블 뷰(View)를 만드는 방법 (HCatalog Tutorial)

This article is based on Hortonworks Partner Content

이 블로그를 통해서 HIVE를 통해서 하둡 파일시스템(HDFS)에 저장된 데이터를 대상으로 마치 관계형 데이터베이스에 질의하듯이 결과를 얻는 다양한 방법과 ODBC Connector를 통해서 데이터셋을 연동하는 방법은 소개를 많이 했습니다.

다음 영상은 비교적 쉽게 이러한 데이터 처리 시스템의 관점에서 설명을 해 주고 있으니 한 번 보시면 이 부분을 이해하는 데 도움이 되겠습니다.

여기서 하둡이 다른 관계형 데이터 베이스(RDB)와 다른 유연한 특징에 대해서 잠깐 언급할 필요가 있습니다.
일반적인 RDB는 명확한 스키마에 의해서 데이터를 테이블 형태로 입력한 이 후에 결과를 빠르게 얻는 데 특화된 시스템입니다.

하지만 하둡은 기본적으로 하둡 파일시스템(HDFS)에 다양한 형태의 데이터를 일단 저장하고 이것을 분석하는 시점에서 “어떻게 해석 할지”에 대한 뷰(View)를 다양하게 적용하는 것이 가능합니다.

이 특성은 현대적인 데이터 관리 시스템을 설계할 때 아주 유용한 속성 중에 하나입니다.
다양한 비정형 데이터들을 관리하는 것 뿐만 아니라 정형 데이터를 관리하는 영역에서도 비즈니스 전략 혹은 관점의 변화에 따라서 데이터를 보는 ‘스키마’도 항상 달라질 수 밖에 없습니다.
하둡은 이러한 데이터에 대한 전략이 달라졌을 때 단지 ‘어떻게 해석할 것인지’에 대한 부분만 조정함으로써 신속하게 대응할 수 있습니다.

HCatalog는 PIg, MapReduce를 포함한 다양한 데이터 처리 툴에게 일종의 테이블 뷰(Table View)를 제공하는 모듈입니다.
즉, 사용자는 실제로 데이터가 어떤 포맷으로 되어 있는 지에 상관없이 이용할 수 있습니다.
정확하게는 SerDe(Serializer-Deserializer)를 작성할 수 있는 모든 파일 형식이고 디폴트로 다양한 파일 형식(RCFile, CSV, JSON, and SequenceFile, and ORC file formats)을 지원합니다.

사용자가 특정한 포맷을 이용하려면 InputFormat, OutputFormat, SerDe에 특정한 데이터 형식을 처리하는 코드를 작성함으로써 자유롭게 확장할 수 있습니다.

hcatalog

HCatalog로 테이블 뷰 만들기

이제 파일로부터 새로운 테이블을 생성합니다.


여기서 칼럼의 타입에 대해서 다시 설정하는 것도 가능합니다.

이런 방법으로 파일로부터 다양한 테이블 뷰를 만들고 나면 Pig, HIVE와 같은 다양한 처리 툴을 통해서 바로 데이터 처리를 할 수 있습니다.
실제 기업에서 하둡 클러스터를 적용할 때에는 비즈니스에 가장 부합한 데이터 처리 방식을 찾아 내기 위해서 몇 개의 HCatalog 스키마로 충분히 테스트를 한 이후에 최적화된 뷰를 적용함으로써 최적화된 데이터 관리 플랫폼을 구축할 수 있습니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

HIVE를 통해서 다른 분석툴과 연동하는 방법 (MicroStrategy, Apache Hive and the Hortonworks Sandbox)

This article is based on Hortonworks Partner Content

다른 글에서도 언급했던 것처럼 하둡 클러스터가 독립적인 정보 시스템 프로젝트가 아니라 기업의 다른 정보 시스템과의 연동을 고려해서 구축해야 한다는 측면의 중요성에 대해서 많이 다루었습니다.

그래서 BI툴로 기업에서 활용되는 예로서 마이크로스트레터지(Microstrategy)와 하둡 클러스터를 연동하는 튜토리얼(Tutorial)에 대해서 소개합니다.
하나의 예로 들었지만, 하둡의 HIVE는 하둡 파일시스템(HDFS)에 저장된 데이터셋에 대해서 일종의 RDB의 테이블과 같은 뷰(View)를 제공하고 ODBC, JDBC와 같은 표준 인터페이스를 통해서 다른 분석툴에서 접근할 수 있게 해 줍니다.

즉, HIVE를 통한 연동 방법을 이용하면 대부분의 다른 분석툴에 대해서도 연동이 가능하므로 현재 사용 중인 분석툴로 테스트를 해 보는 데 도움이 될 만한 샘플입니다.

실제 기업에 적용되는 유스케이스에서 하둡 클러스터에 있는 데이터셋만으로 의미 있는 인사이트를 얻을 수 있는 경우는 거의 없을 것입니다.
기존에 분석되고 있는 데이터들과 어떻게 ‘조인’해서 인사이트를 얻을 수 있는 지가 갈수록 중요해 질 것으로 봅니다.

연동하는 방법에 대한 간단한 요약
분석툴은 하둡에 있는 데이터에 SQL 접근을 하기 위해서 “ODBC Connection”을 통해서 아파치 HIVE에 접속하는 방법을 사용합니다.
사실 분석툴에서 호튼웍스 데이터 플랫폼(HDP)에 연결(Connection)하는 부분은 생각보다 쉽고 직관적입니다.

이 샘플에서는 Microstrategy Analytics Desktop에서 호튼웍스 샌드박스(Sandbox)에 접근하는 방법을 설명하고 있지만 실제 구축 환경에서도 동일한 과정으로 연동할 수 있습니다.

1. MicroStragey 인스톨 하기
먼저 MicroStrategy Analytics Desktop버전을 인스톨합니다.
이 링크를 통해서 무료로 다운로드할 수 있습니다.

2. 호튼웍스 ODBC Connector를 인스톨 및 세팅하기
인스톨 한 이후에 IP 어드레스, 포트 넘버, 데이터베이스 네임, HIVE Server type 등을 세팅합니다.
캡처

3. MicroStrategy Analytics Desktop에서 데이터 임포트를 위해 세팅하기
먼저 “Create a Dashboard”를 클릭해서 “Import Data”창을 엽니다.
import

“Database”를 클릭합니다.
database

“DSN Connection”을 클릭하여 HIVE와 데이터셋을 연동합니다.
여기서 연동하고자 하는 HIVE의 버전을 지정할 수 있습니다.
하둡 시스템에 접근하기 위해 하둡 클러스터의 아이디와 패스워드를 입력합니다.

dna_connection

4. 분석하고자 하는 데이터셋을 지정해서 가져 옵니다.
이 부분은 아래 그림과 같이 드래그앤드롭으로 직관적으로 진행됩니다.

dragdrop

이제 선택한 뷰(View) 혹은 큐브(Cube)를 저장하고 리포트를 생성할 수 있습니다.

report

이상과 같이 기존에 기업에서 사용하는 분석툴을 이용해서 하둡 파일시스템(HDFS)에 저장된 데이터셋을 일종의 뷰(VIEW)로 가져 오는 방법을 알아 봤습니다.

다음에는 저희 회사의 파트너인 펜타호(Pentaho)를 통해서 기업에서 필요한 인사이트를 얻기 위한 자세한 유스케이스도 소개하도록 하겠습니다.

———————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–

오픈소스 분석툴을 이용한 하둡 데이터 활용 방법 (Revolution R Enterprise Tutorial for Hortonworks Sandbox)

This article is based on Hortonworks Blog

일전의 블로그에서도 언급했던 것처럼 하둡의 에코시스템은 비용 효율적인 방법으로 데이터를 저장(HDFS)하고 처리하는 플랫폼의 관점에서 많이 다루어 지고 있습니다.

빅데이터의 진정한 가치는 이러한 다양한 데이터 소스에서 기업의 경쟁력에 중요한 인사이트(Insight)를 얻어 내기 위한 것이라는 점은 변함이 없습니다.
최근에 하둡 에코시스템에는 다양한 BI(Business Intelligence), OLAP(Online Analytical Processing), Business Analytics 등의 다양한 전문 기업들이 참여하면서 분석을 어떻게 할 것인가 하는 주제도 활발히 논의되고 있습니다.

그 중에서 오픈 소스 기반의 분석툴인 R을 지원하는 Revolution Analytics에서 최근에 발표한 Revolution R Enterprise 7라는 분석툴은 하둡 데이터 플랫폼과 바로 연동해서 분석할 수 있도록 많은 부분이 개선되었습니다.
(With this release, you can now run R natively in Hortonworks Data Platform by simply moving their R-powered analytics to Hadoop.)

즉, 분석을 위해서 하둡에 저장된 데이터를 별도로 이동시킬 필요 없이 그대로 R의 다양한 분석 함수(Functions)을 실행시켜서 결과를 얻을 수 있도록 연동이 강화되었습니다.

어떻게 연동하고 이용하는 지에 대한 튜토리얼(Trutorial)을 공유드립니다.
하둡 샌드박스(Sandbox)를 이용한 R 연동 방법 <-- 다운로드

이 문서에는 Revolution R Enterprise에 대한 설명과 호튼웍스의 HDP(Hortonworks Data Platform)와 어떻게 연동되는 지에 대한 자세한 설명이 되어 있습니다.
그리고 아래 영상은 하둡 환경에서 R을 활용하는 데 필요한 기본적인 사항들을 보여 주고 있습니다.

분석을 위한 특화된 다양한 BI툴이 시장에 나와 있지만 R은 가장 일반적인 통계툴이면서 다양한 분석에 유연하게 적용할 수 있다는 측면에서 좋은 옵션 중의 하나로 여전히 그 가치가 높다고 보여 집니다.

———————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–

Page 4 of 512345