Tags

엔터프라이즈 하둡 및 “Data Lake”(Enterprise Hadoop and the Journey to a Data Lake

This article is based on Hortonworks Partner Content and Expertise

저의 고객과의 상호 작용이 저를 가르쳤다 한 가지가 있다면, 그것은 아파치 하둡은 데이터 센터를 파괴하지 않았지만 데이터는 그랬다는 것입니다. 최근 몇년 동안 새로운 유형의 데이터 폭발은 기술적으로도 경제적으로 데이터 센터에 큰 압력을 가하고 있으며, 엔터프라이즈 하둡은 결과의 현대 데이터 아키텍처의 역할은 점점 중요해 지고 있습니다.

다운로드: 하둡과 현대 데이터 아키텍처.

성공적인 Hadoop 여행은 일반적으로 “data lake”로 이어지는 새로운 분석 응용 프로그램에서 시작됩니다. 점점 더 많은 응용 프로그램은 데이터의 센서 / 기계 , 서버 로그 , 클릭 스트림 , 및 기타 소스 의 새로운 유형에서 가치를 이끌어 낼 수 있도록 합니다. Hadoop이 가지는 데이터 호수 모양으로 크고 광범위한간에 깊은 통찰력을 제공하는 공유 서비스로 실행하는 기존 엔터프라이즈 시스템과 도구와 통합하여 데이터의 호수 여행을 보완 할 수있는 방법으로 데이터가 다양합니다.

08

하둡과 기존 데이터 시스템 : 현대 데이터 아키텍처

그것은 데이터의 저장과 처리를 저렴한 비용으로 확장 접근을 제공하고, 세계에서 가장 큰 웹 속성의 요구에 확장이 증명되고 있기 때문에 기존의 데이터 시스템을 보완은 Hadoop을 사용하는 것은 매우 설득력이있습니다.

01

하둡과 “읽기에 대한 스키마”의 가치

그것도 데이터베이스에 로드 하기 전에 지정된 구조 ( 또는 스키마 ) 로 변환 하는 데이터를 필요로하고 기존의 관계형 데이터베이스 와 달리 Hadoop 은 분석가와 개발자는 다음 의 요구에 맞춘 구조 을 적용 할 수 있으며, 그 원시 형식으로 데이터를 저장 하기에 초점 을 맞추고 그들은 데이터에 액세스 할 때에는 자신의 애플리케이션에 이상적입니다 . Hadoop 의 ” 스키마 보기 설정 “접근은 즉시 어떤 형식으로 데이터를 저장하고 필요할 때 매우 유연하고 적시에 배치 · 구조를 적용 하기 위해 사용자에게 권한을 주는 반면 기존 의 ” 스키마 온 라이트 ‘ 의 접근 방식은 더 많은 전망과 IT 의 개입을 필요로 합니다.

 

예를 들어, 기존의 응용 프로그램은 그것이 고객 상호 작용의 단일 뷰를 얻으려면, 클릭 스트림 데이터 및 CRM 데이터를 결합하여 존재 하고 있다고 가정합니다. 새로운 유형의 데이터를 사용할 수있게되면 , 그것은 데이터를 쉽게 고객의 뷰를 풍부하게하기 위하여 추가 될 수 있습니다 ( 예 : 서버 로그 나 감정 데이터 ) 관련 될 수 있습니다. 키의 구분 은 데이터가 저장되어 있을 때 , 그것은 특정 응용 프로그램 에서 그 구조와 연결을 선언 할 필요가 없습니다.

하둡 여행은 일반적으로 새 분석의 응용 프로그램과 함께 시작 …

Hadoop의 사용량은 일반적으로 이전에 캡처되지 않은 데이터를 연료로하는 새로운 분석 응용 프로그램을 만드는 것부터 시작합니다. 응용 프로그램은 특정 산업이나 조직에만 경향이 있지만, 관련 데이터의 특정 유형의 렌즈를 통해 이러한 응용 프로그램의 많은 유사점이 있습니다.

산업에 걸쳐 분석 애플리케이션의 예는 다음과 같습니다 :

07

… 데이터 호수로 이어질

Hadoop은 다른 데이터 소스를 사용하는 응용 프로그램의 범위와 규모의 지속적인 성장과 엔터프라이즈 Data Lake의 비전을 구체화 하기 시작합니다. 내부 및 외부 데이터 소스를 포함한 여러 사일로 에서 데이터를 결합하여 당신의 조직은 모두 미리 듣고 어떻게 알았으며 복잡한 질문에 대한 답변을 찾을 수 있습니다.
예를들어, 연간 1억대의 고객 상호 작용에 대한 대규모 미국의 홈 센터의 데이터는 다양한 마케팅 캠페인 및 온라인 고객 브라우징 동작과 트랜잭션 데이터를 상호 연관에서 기업을 예방, 고립된 사일로 간에 저장 했다. 무엇이 이 큰 소매 업체가 필요한 것은 ” 골든 기록 “의 POS 거래, 택배 및 웹 사이트 트래픽을 포함한 모든 기간, 모든 채널에 걸쳐 통일된 고객 데이터 입니다 .
황금 레코드를 현실화 하는 것으로, 데이터의 호수는 주문을 받아서 만들어진 쿠폰, 프로모션, 이메일 등 타겟 마케팅 캠페인에 대한 중요한 통찰력을 제공 및 지원함으로써 여러 액세스 방법의 일반적인 데이터 세트 ( 일괄 처리, 실시간 스트리밍 , 메모리 등 ) 를 사용자가 변환하고 여러 가지 방법으로 뷰 데이터 (각종 스키마 사이) 및 폐쇄 루프 분석 을 확장 할 수 있습니다. 어느 때보다 가까운 실시간으로 타임 투 통찰력을 가진 응용 프로그램입니다.

실제 의미에서, Data Lake는 세 가지 주요 특성을 특징으로 합니다 :
1. 모든 데이터가 장기간 삶의 원천 뿐만 아니라 모든 처리된 데이터를 모두 수집합니다 .
2. 여러 사업 부문 전체의 사용자는 세련된 확인 조건에 관한 데이터를 제공 할 수 있습니다.
3. 공유 인프라를 통해 여러 데이터 액세스 패턴을 가능하게 합니다. 메모리 및 기타 처리 엔진, 검색 , 온라인 대화 형 배치 .

데이터가 기하 급수적으로 성장을 계속하고 있으며, 기업이 Hadoop 에 대한 투자는 현대 데이터 아키텍처의 효율성 및 엔터프라이즈 데이터 Lake 기회 모두를 위한 전략을 제공 할 수 있습니다.

최종 결과는 확장성과 낮은 비용을 기반으로 한 통찰력입니다.

Hadoop, the Data Lake, and the Modern Data Architecture의 좀더 자세한 설명을 원한다면 다운로드 하십시오. download our whitepaper.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

하둡과 LDAP을 연동하여 기업 환경에 적용하는 방법 (하둡 GroupMapping)

This article is based on Hortonworks Partner Content and Expertise

하둡을 기업 환경에서 운용되는 시스템이라는 측면에서 적용 방법을 소개하고 있습니다.
하둡 파일시스템을 기업의 다양한 스토리지 시스템에 적용하는 방법
하둡은 기업 환경에 어떻게 적용되어야 하는가
SQL 서버에 있는 데이터를 하둡으로 임포트하는 방법
하둡을 도입할 때 반드시 고려해야 할 점

그 중에서도 LDAP은 기업 내부의 유저(사용자)와 그룹(사용자 그룹)을 통합적으로 관리하는 시스템으로 이미 많은 정책이 적용이 되어서 운영되고 있는 중요한 시스템일 것입니다.
기본적으로 LDAP의 다양한 그룹을 하둡에 적용하기 위해서는 두 가지 방법이 있습니다.
첫 번째는 운영체제 레벨에서 LDAP 그룹(LDAP groups)을 읽어 들이도록 설정하는 것이고 두 번째는 하둡 클러스터 레벨에서 그룹 맵핑(Group Mapping)을 설정하는 방법입니다.

이번에는 보다 유연하게 적용이 가능한 두 번째 방법을 통해서 LDAP과의 연동 방법을 살펴보도록 하겠습니다.

LDAP과의 연동 절차
- LDAP에 하둡의 서비스 계정(Service Accounts)를 생성하기
- HDFS의 네임노드(NameNode)와 YARN 리소스매니저(ResourceManager)를 셧다운하기
- 하둡의 core-site.xml 파일을 수정하여 LDAP 서버를 설정하기
- HDFS의 네임노드(NameNode)와 YARN 리소스매니저(ResourceManager)를 재시작하기
- 그룹 맵핑을 확인하기

1. LDAP에 하둡의 서비스 계정(Service Accounts)를 생성하기
먼저 샘플로 services.ldif를 한 번 검토해 보기 바랍니다.
이 파일에서 hcal, mapred, hdfs, yarn, hbase, zookeeper, oozie, hive와 같은 하둡의 서비스 어카운트가 설정되어 있는 것을 확인할 수 있습니다.
물론 Hadoop 그룹을 만들고 하둡 서비스 어카운트를 멤버로 등록시킨 것도 함께 확인할 수 있습니다.

아래 ldapadd 명령을 통해서 LDAP 시스템에 등록을 시키면 됩니다.

ldapadd -f /vagrant/provision/services.ldif -D cn=manager,dc=hadoop,dc=apache,dc=org -w hadoop

그 다음에는 다음 문서를 참조하면서 Hortonworks Data Platform documentation HDFS 네임노드와 YARN 리소스매니저를 셧다운합니다.

2. 하둡의 core-site.xml 파일을 수정하여 LDAP 서버를 설정하기
먼저 수정을 하기 전에 기존의 core-site.xml 파일을 백업하고 아래 샘플 설정을 보면서 LDAP과의 연동을 위한 설정을 진행합니다.
보통 LDAP 연동을 위해서는 bind user, bind password와 같이 LDAP에 특화된 변수에 대한 값을 설정할 필요가 있습니다.
이 때 이 값들을 LDAP에 있는 services.ldif와 크로스체크를 해서 문제가 없도록 한 번 더 살펴 보면 됩니다.

core

그 다음에 네임노드와 리소스매니저를 재기동하면 core-site.xml을 읽어 들이면서 연동을 마무리합니다.

3. 그룹 맵핑을 확인하기
간단히 hdfs groups 명령을 이용하면 LDAP에서 그룹을 가져와서 보여 주므로 연동이 잘 되었는 지 바로 확인할 수 있습니다.

이상에서 LDAP과 연동하여 액세스 컨트롤을 통합해서 관리하는 방법을 알아 봤습니다.
앞으로도 기업의 시스템과 연동해서 하둡 클러스터가 독립된 관리 시스템이 아니라 기업의 기버넌스의 일부로 관리될 수 있도록 하는 방법을 소개해 드리도록 하겠습니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

하둡 데이터의 거버넌스(governance) 체계를 자동화하는 방법 (Apache Palcon)

This article is based on Hortonworks Partner Content and Expertise

하둡을 기업 환경에서 본격적으로 수용하기 위해서 고려해야 할 점들을 많이 소개하고 있습니다.
기업에서 하둡을 도입할 때 반드시 고려해야 할 점
하둡 기반의 기업용 데이터 관리 시스템을 쉽게 구축하는 방법

하둡의 데이터도 기업의 IT 거버넌스(Governance)의 입장에서 봤을 때는 정책이 적용되고 관리되어야 하는 중요한 자산으로 파악을 해야 합니다.
하둡 에코 시스템의 입장에서도 하둡이 기업에 본격적으로 도입을 하기 위해서는 이러한 데이터 관리 정책을 적용하고 추적할 수 있는 방법이 핵심이라는 점을 인지하고 있습니다.

그래서 현재는 아파치 팔콘(Apache Palcon)이라는 프로젝트를 통해서 이러한 기업의 하둡 데이터 거버넌스 니즈를 수용하고자 하고 있습니다.
팔콘은 비교적 새로 하둡 에코시스템에 편입된 컴포넌트이지만 이미 인모비(Inmobi)라는 온라인 광고 회사에서 2년 이상 활용되고 진화되어 온 데이터 관리 시스템입니다.
호튼웍스는 호튼웍스 데이터 플랫폼(HDP) 2.1 버전에 정식으로 팔콘을 통합할 계획을 가지고 있으므로 HDP에 통합된 형태로 이용할 수 있게 되었습니다.

아파치 팔콘은 한 마디로 데이터 관리 정책을 정의하고 스케쥴링하고 모니터링하는 데이터 거버넌스 엔진입니다.
(Apache Falcon is a data governance engine that defines, schedules, and monitors data management policies.)

falc1

다이어그램을 보면 팔콘은 기본적으로 다음 세 가지를 수행하기 위해서 다른 하둡 에코시스템을 이용하고 있습니다.
- 데이터 파이프라인(Data Pipeline)을 정의하기
- 암바리(Ambari)를 이용해서 이러한 데이터 파이프라인의 처리 현황을 모니터링하기
- 데이터 파이프라인의 처리 흐름을 추적하기

팔콘은 이러한 복잡한 처리 과정을 단순화하기 위해서 엔터티(Entity)를 정의하는 방법으로 정책을 지정하고 Apache Oozie의 워크플로우를 통해서 스케쥴링하는 방법으로 복잡한 거버넌스 절차를 자동화합니다.

정책을 정의하기 위한 엔터티는 세 가지로 이루어져 있습니다.

falc3

여기서 클러스터(Cluster) 엔터티는 팔콘이 이용하는 모든 서비스 인터페이스를 지정하는 상위 엔터티이고 데이터셋을 지정하는 피드(Feed)와 스케쥴링을 지정하는 프로세스(Process)는 이 클러스터 엔터티에 의존하게 됩니다.
그래서 항상 클러스터 엔터티를 먼저 지정하고 다른 두 엔터티를 지정하는 형태로 설정을 합니다.

각 정책 마다 어떤 데이터셋이 적용 대상인지에 대한 피드 엔터티를 지정하고 어떤 파이프라인을 통해서 처리할 것인지를 프로세스 엔터티에 지정하여 간단하게 데이터 거버넌스 정책을 자동화할 수 있습니다.

falc2

이렇게 정의된 엔터티들의 정책은 워크플로우 엔진에 Oozie를 통해서 실행이 되고 처리 현황은 다시 팔콘으로 피드백이 됩니다.

다음에는 구체적으로 어떻게 정책을 적용할 수 있는 지 실사례들을 중심으로 살펴 보도록 하겠습니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

하둡 데이터를 오픈소스 분석툴인 펜타호를 통해 분석하는 방법

This article is based on Hortonworks and Pentaho Partner Content

하둡 클러스터를 구축한 이후에 누가 이용할 것인가에 대한 문제를 한 번 검토해 볼 필요가 있습니다.
초기에는 주로 개발 부서가 인발브가 되어서 논의가 이루어 지지만 궁극적으로 누가 이용할 것인지를 살펴 보면 어떤 요소들이 더 필요한 지에 대한 인사이트를 얻을 수 있을 것입니다.

기존에 BI를 활용하는 부서의 입장에서 보면 기본적으로 마케팅 분석가나 생산관리 혹은 품질 관리 부서에서 가장 많이 활용을 하고 있으며, 그 외에 데이터웨어하우스를 구축하는 데 필요했던 각 데이터마트의 데이터를 이용하던 조직들이 활발하게 이용하고 있습니다.

이런 관점에서 보면 빅데이터 하둡 클러스터에 모인 데이터를 이러한 분석가들이 쉽고 직관적으로 이용해서 인사이트를 얻도록 도와 주는 쪽의 구성 요소는 하둡 클러스트의 구축 못지 많게 중요한 부문으로 떠오르고 있습니다.

다른 글에서 다양한 연동 방법에 대해서 소개를 드렸습니다.
HIVE를 이용해서 다른 분석툴과 연동하는 방법
하둡과 SAP 제품들을 연동하는 방법
자사의 미들웨어를 하둡과 연동한다는 것의 의미와 방법

일반적으로 HIVE는 하둡 클러스터의 데이터셋에 대해서 테이블 뷰를 제공하고 JDBC와 같은 표준 데이터베이스 연동툴을 통해서 접근하는 것이 가능하기 때문에 가장 쉬운 연동 포인트 중의 하나입니다.

기본적으로는 HIVE의 테이블 뷰를 하둡 클러스터에서 구성하고 분석툴에서 이러한 테이블 뷰를 다른 데이터셋과 마찬가지 방법으로 다룰 수 있도록 구성하는 것이 일반적인 솔루션 개발 프로세스입니다.

다양한 상용 분석툴이 하둡과의 연동을 발표하고 있지만 오픈 소스 분석툴인 펜타호(Pentaho)도 빅데이터 분석 및 시각화에 많은 노력을 기울이고 있어서 분석가들을 위한 다양한 솔루션을 제공하고 있습니다.

그래서 하둡 데이터 통합(Data Integration)의 관점에서 펜타호의 접근 방법을 간단히 소개하고자 합니다.

시각적인 ETL 툴을 통한 데이터 정제 과정

hadoop-drag-and-drop

펜타호는 하둡 데이터셋을 포함한 다양한 데이터 소스의 데이터를 액세스하고 변환하기 위한 다양한 라이브러를 제공하는 방식으로 접근하고 있습니다.
이러한 라이브러리를 활용하는 시각화툴을 통해서 드래그-앤-드롭 방식으로 메타데이터를 생성하도록 지원하고 있습니다.
이러한 시각화툴을 통해서 데이터 맵핑, 정합성 테스트 등을 하나의 파이프라인으로 연결해서 자동화함으로써 분석가들이 실제로 분석을 하기 위한 데이터셋을 손쉽게 준비할 수 있도록 하고 있습니다.

시각적인 툴을 통해서 코딩없이 데이터 분석 및 시각화
이렇게 정제된 데이터셋에 대해서 맵리듀스(MapReduce) 잡을 생성하거나 SQL문을 통해서 원하는 결과를 얻는 방법도 있지만 하둡 클러스터의 데이터셋을 보다 많은 사람들이 이용하기 위해서는 코딩 없이 분석이 가능한 툴이 중요한 요소 중의 하나입니다.

map_0

펜타호는 기존의 데이터베이스를 병렬적으로 분석해서 속도를 높히는 엔진을 보완하여 하둡의 데이터셋에 대해서도 병렬적으로 분석하여 결과를 빠르게 도출할 수 있도록 진화시키고 시각화 툴에 연동시킴으로써 별도의 코딩없이 데이터를 분석하는 방법을 제공합니다.

하둡 클러스터의 데이터셋 이외에도 몽고디비 등의 NoSQL 데이터와의 통합 분석 등의 기능을 지원함으로써 기업이 보유하고 있는 모든 데이터 자산을 가장 효율적으로 이용하기 위한 분석툴을 제공합니다.

이러한 다양한 기능이 오픈소스 커뮤니티를 통해서 플러그인 방식으로 계속 통합됨으로써 기존의 상용 솔루션이 커버하지 못 하는 영역의 분석에 대해서도 지속적으로 그 범위를 확대하고 있습니다.

구체적인 연동 방법과 분석툴에 대한 소개는 계속 드리도록 하겠습니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

금융산업의 혁신을 위한 호튼웍스 하둡 아키텍쳐 (Modern Financial Services Architectures Built with Hadoop)

This article is based on Hortonworks Partner Content and Expertise

그 동안 각 산업의 버티컬 영역별로 안고 있는 문제점들과 하둡을 통해서 이러한 문제를 어떻게 해결할 수 있는 지에 대해서 소개해 드리고 있습니다.

의료 산업의 혁신을 위한 하둡 아키텍쳐
제조업을 위한 하둡 아키텍쳐
통신사를 위한 하둡 아키텍쳐
유통업을 위한 하둡 아키텍쳐
광고 산업을 위한 하둡 아키텍쳐
정유 산업을 위한 하둡 아키텍쳐

실제 하둡 데이터 플랫폼을 어떻게 구축할 것인지에 대한 기술적인 부분보다는 이러한 산업 별로 경험하고 있는 문제들에 대한 인사이트를 얻는 부분이 더 중요하다는 생각입니다.

금융업은 실제로 하둡을 적용한 사례가 많고 앞으로 더 많이 적용될 것으로 예상되는 영역입니다.
우리나라는 빅데이터와 보안에 대한 오해들이 조금 있어서 상대적으로 도입 논의가 더딘 것은 사실입니다만 하둡이 가지고 있는 장점과 보안 체계에 대한 이해가 점차 컨센서스를 이루어 가면 급속도로 도입 논의가 진행될 것입니다.

사실 하둡은 전체적으로 데이터를 다루는 플랫폼이다보니 보안이 아주 중요한 이슈로서 핵심분야 중의 하나로 가장 많은 노력을 기울이고 있는 분야 중의 하나입니다.

호튼웍스 하둡과 NoSQL을 연동하는 방법 (Accumulo case)
하둡에서 데이터 전송 시의 암호화
하둡의 보안을 위한 체계

금융업을 데이터 플랫폼의 관점에서 고려하면 리스크(Risk)를 최소화하고 기회(Opportunity)를 극대화하는 과정에서 특히 많은 데이터에 직접적으로 의존하는 분야로 정의할 수 있습니다.
예를 들어, 보험회사들이 보험 상품을 기획할 때의 모든 프로세스에는 각종 통계 데이터와 향후 예측 모델링에 이르기까지 이미 산업 전체가 Data-driven organization으로 분류할 수 있을 정도로 많은 데이터를 분석하는 업종입니다.

하지만 데이터에 대한 각종 규제과 규칙이 가장 엄격하게 적용되어야 하는 분야라는 상충되는 부분도 함께 존재합니다.
한 개인의 실수 혹은 나쁜 의도에 의해서도 회사 전체에 영향을 미칠 정도로 데이터에 대한 관리 방식이 중요한 분야입니다.

금융업을 위한 하둡 아키텍쳐를 설계할 때 가장 기본적인 목표는 이러한 리스크(Risk)와 기회(Opportunity) 양 쪽에 가장 명확한 인사이트를 주는 것으로 설정할 수 있겠습니다.
금융업을 규정하는 사업에 대한 보다 많은 정보를 누수없이 실시간으로 처리함으로써 운영 효율성을 극대화하고 새로운 기회를 모색하는 분야와 리스크의 원천에 대한 이상 패턴을 조기에 파악하는 작업을 통해서 위험을 회피할 수 있습니다.

Financial companies do Hadoop.

Financial-Services-Ref-Arch.20140310

위 아키텍쳐의 기본 구성은 “현대적인 하둡 아키텍쳐의 구성 요소와 역할”에서 설명드린 컴포넌트들로 이루어져 있습니다.

그러면 금융업에서 바로 적용할 수 있는 하둡의 적용 분야에 대해서 살펴 보겠습니다.

Screen New Account Applications for Risk of Default
특히 은행의 경우에는 매일 수만 건의 신규 계좌 개설 및 해지 등의 요청이 들어 옵니다. 은행은 이러한 계좌 신청 등에 대해서 제3의 신용 정보 기관에 정보를 조회하는 과정을 거쳐서 잠재적인 리스크를 줄이는 과정을 진행합니다.
하지만 이러한 신용 정보 기관의 조회를 통한 방법은 극히 한정된 거래 내역이나 정보를 기반으로 하고 있어서 각 계좌에 대한 보다 명확한 등급의 설정이나 리스크의 예측을 어렵게 만들 가능성도 있습니다.

예를 들면, 이른바 대포통장 등의 문제는 우리나라만의 문제가 아니라 광범위하게 골치를 앓고 있는 분야 중의 하나입니다.
이러한 통장 개설에서의 충분한 스크리닝(Screening)이 이루어 지지 않은 문제는 다른 각종 금융 사기(Fraud)와 연결되는 시발점이 된다는 측면에서 리스크를 급속도록 증대시킵니다.

하둡은 단순한 이전의 거래 내역뿐만 아니라 실시간으로 거래 현황을 종합적으로 분석하고 패턴을 감지함으로써 잠재적인 리스크가 되기 이전에 관리하는 것이 가능합니다.
점차로 이러한 이상 패턴에 대한 정보가 쌓이고 Mahout 등을 이용한 머신 러닝 알고리즘을 적용해서 계좌에 대한 각종 정책을 지정하는 데에도 확실한 근거 자료를 제공합니다.

Monetize Anonymous Banking Data in Secondary Markets
은행이 처리하는 각종 데이터와 정보는 다른 산업 주체들의 입장에서도 아주 중요한 기반 데이터라는 측면이 부각되고 있습니다.
은행이 가지고 있는 수많은 계좌들의 트랜잭션 데이터와 정보는 경제 전체의 트렌드에 대한 인사이트도 함께 가지고 있으며 이러한 정보는 각종 투자자들, 기업들, 정책 입안자들과 같이 은행 외부에 있는 사람들에게도 가치 있는 데이터가 됩니다.

Retail banks have turned to Apache Hadoop as a common cross-company data lake for data from different LOBs: mortgage, consumer banking, personal credit, wholesale and treasury banking. Both internal managers and consumers in the secondary market derive value from the data.

은행은 모기지 정보나 신용카드 사용 추이 등의 중요한 정보를 다른 2차 시장의 회사들과 공유함으로써 새로운 가치를 만드는 것에 주목을 하고 있고 실제로 하둡 기반으로 이러한 정보들을 조인해서 실시간 분석 결과를 제공하는 시스템이 운영 중에 있습니다.

Improve Underwriting Efficiency for Usage-Based Auto Insurance
자동차 보험은 고객의 사고 이력 등의 데이터를 바탕으로 사업이 이루어지는 대표적인 데이터 기반 의사결정 조직(Data-driven Organization)입니다.
최근에는 실제로 고객이 운행한 실적에 따라서 요금을 달리하는 등의 비즈니스 모델이 도입되는 것처럼 실시간으로 처리해서 분석해야 할 데이터 볼륨은 급속도로 늘어 나고 있습니다.

Advances in GPS and telemetry technologies have reduced the cost of capturing the driving data used to price PAYD policies, but the data streaming from vehicles grows very quickly, and it needs to be stored for analysis.

GPS 등의 각종 운행 정보를 바탕으로 유연한 비즈니스 모델을 도입하는 데 있어서 하둡 기반 플랫폼을 적용하는 사례가 많아지고 있습니다.

Analyze Insurance Claims with a Shared Data Lake
Maintain Sub-Second SLAs with a Hadoop “Ticker Plant”
Surveillance of Trading Logs for Anti-Laundering Analysis

그 외에도 각종 금융 사기(Fraud)의 패턴을 바탕으로 실시간으로 검열하는 시스템이나 보험 청구에 대한 정당함을 증명하기 위해서 보험 회사 내외의 각종 데이터 정보를 조인해서 문제점을 발견하는 등의 다양한 분야에서 적용이 되고 있습니다.

금융업의 실제 프로젝트 적용 사례에 대해서는 앞으로도 지속적으로 살펴 보겠습니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

Page 1 of 41234