Tags

엔터프라이즈 플랫폼을 위한 하둡의 현재 위치 및 발전 방향 (summary of Hadoop summit 2014)

This article is based on Hortonworks Partner Content and Expertise

이번 하둡 서밋 2014는 여러 가지 의미를 가지고 있습니다만 개인적으로는 드디더 하둡이 엔터프라이즈 데이터 허브로서 적용될 수 있는 프레임워크를 완성했다는 것에 두고 싶습니다.

먼저 호튼웍스의 키노트 영상을 먼저 보겠습니다.

다양한 사례들과 하둡의 향후 모습에 대해서 미리 엿볼 수 있습니다만 그 중에서도 뒤쪽에 있는 ‘Hadoop Innovation’이라는 부분에 주목을 하는 것이 좋을 듯 합니다.

하둡에 대해서 많은 얘기들이 나오고 있지만 아직은 하둡 1.0의 패러다임과 하둡 2.0의 새로운 진화가 공존하고 있는 상황으로 보입니다.
하둡 2.0이 ‘빅데이터 저장 및 관리’ 와 ‘빅데이터 처리’의 두 가지 관점에서 어떻게 변했고 앞으로 어떻게 변해갈 것인지 이해하는 부분이 중요해 보입니다.

더이상 하둡은 하둡파일시스템과 배치 처리를 위한 맵리듀스가 결합된 단일 목적의 빅데이터 처리 플랫폼이 아니라 다양한 어플리케이션이 공통의 저장 패러다임을 공유하면서 목적에 맞게 다양한 데이터 처리 방식을 수용하는 플랫폼이 되었다는 것에 대해 인사이트를 얻을 수 있을 것입니다.

hadoop_second

현재까지 진행된 상황을 한 페이지로 요약한 다이어그램입니다.

- 데이터 관리
- 데이터 접근(Access)
- 거버넌스(Governance) 와 연동 혹은 통합(Integration)
- 보안
- 운영 (Operations)

5가지의 핵심적인 요소들이 이 블로그에서 소개드린 다양한 에코시스템의 통합을 통해서 지원하는 수준으로 발전했습니다.

그리고 그 동안 하둡이 엔터프라이즈에 적용되면서 나왔던 니즈들을 어떻게 수용하게 되었는 지도 한 번 검토해 볼 필요가 있습니다.

hadoop_third

먼저 데이터 관리의 측면에서 하둡의 새로운 아키텍쳐가 어떻게 기업의 니즈를 수용했는 지에 대한 개요입니다.
그 동안 많은 요구가 있었던 안정성 측면에서 이른바 ‘FullStack HA’구성이 가능해 진 점과 멀티 데이터센터의 DR(Disaster Recovery)를 수용하게 되었다는 점에 주목하시면 좋을 듯 합니다.

hadoop-yarn

많은 기사를 통해서 소개드리고 있는 데이터 접근 측면의 변화입니다.
아마도 기존의 하둡의 접근과 완전히 달라졌기 때문에 혼란이 많이 있는 영역이지만 이제는 YARN(Yet Another Resource Negotiator)의 도입으로 기존에 맵리듀스의 배치처리 방식 뿐만 아니라 Batch, Interactive, Realtime, Streaming의 네가지 주요 데이터 처리 방식을 모두 지원하게 되었습니다.

YARN은 하둡 클러스터의 전체 리소스를 관리하는 시스템으로서 각 어플리케이션에 필요한 리소스를 할당하고 모니터링하는 업무에 집중함으로써 다양한 어플리케이션이 하둡 클러스터의 리소스를 공유할 수 있도록 탈바꿈하게 만든 핵심 요소입니다.

그 외에 기업 환경에 적용하는 데 핵심적인 보안 및 운영 관리의 측면에도 기업 니즈를 반영함으로써 엔터프라이즈 데이터 허브에 적합한 플랫폼을 갖추게 되었습니다.

hadoop-streaming

일례로 스톰(Storm) 어플리케이션이 YARN 위에서 돌아가면서 기존의 배치 처리와 상반되어 보이는 머신로그, 센서로그, 서버로그 등의 스트리밍 데이터를 실시간으로 처리하는 기반이 완성되었습니다.

저희도 많은 관심을 갖는 분야이고 지속적으로 소개해 드리고 있습니다.

hadoop-storage

그리고 기존의 하둡의 이미지라고 할 수 있는 로컬디스크가 달린 서버를 균등하게 연결하는 시스템도 기업의 니즈에 의해 변모했습니다.
바로 전의 기사에서 소개드린 것처럼 메모리, SSD 스토리지, 하드디스크 등의 기업 현장의 스토리지를 충분히 이용하는 방향으로 발전이 이루어 지고 있습니다.

hadoop-slide

하지만 가장 주목해야 할 부분은 바로 ‘Others’입니다.
한국에도 많은 기업용 솔루션을 기존에 개발한 회사들도 있고 운용 중이지만 이러한 솔루션을 어떻게 빅데이터를 처리할 수 있도록 할 것인가는 아주 실질적인 문제이고 중요한 문제입니다.

이제는 기존의 어플리케이션을 직접 하둡 클러스터에 적용되어서 빅데이터 솔루션으로 변모하기 위한 프레임워크인 슬라이드(Slide)의 발표가 있었습니다.
참고로 호튼웍스에서 NoSQL을 YARN에서 바로 동작하는 샘플을 발표했으니 함께 검토해 보시기 바랍니다.

전체적으로 빅데이터 시대를 위한 가장 비용 효율적이고 범용적인 플랫폼이 등장했다는 인사이트에 집중해서 보시면 좋을 듯 합니다.

———————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–

호튼웍스 하둡 플랫폼으로 서버 로그 데이터를 분석하여 보안 위협을 감지하는 방법

This article is based on Hortonworks Partner Content and Expertise

최근에 빅데이터를 활용한 실시간 보안 위험 감지 및 분석 시스템에 대한 관심이 급격히 커졌습니다.
물론 기업 보안의 영역에는 그 동안 많은 독립적인 시스템들이 존재해서 그 역할을 해 왔지만 최근에 그러한 독립적인 시스템에 대한 효용성이 도마에 오르는 듯 합니다.

보안 위협은 단순히 외부의 공격이나 접근 시도 뿐만 아니라 기업 내부 혹은 일정한 권한을 가진 파트너사와 같이 전체적인 곳에서 발생하기 때문에 단순히 네트워크에 앞 단에 구성된 보안 시스템은 그 정도 일부만을 담당할 뿐이라는 것이 전문가들의 공통된 지적인 듯 합니다.

앞으로의 보안 시스템은 IT 시스템 전체의 보안 요소를 분석할 수 있는 포괄적인 관점이 필요하다는 것으로 의견이 모아지는 듯 합니다.
즉, 네트워크에 대한 다양한 공격 시도에서 부터 내부 ID의 서버 접근이나 데이터의 흐름 등 전체적인 데이터로 부터 이상 현상을 탐지해야 한다는 접근 방법입니다.

호튼웍스 등 하둡 전문 업체들은 이 분야에서 하둡이 가진 포괄적인 데이터 처리 능력이 활용될 수 있을 것으로 보고 있으며, 최근에는 다양한 보안 전문 업체들과 협업하여 이른바 ’360 degree security’에 대한 솔루션을 경쟁적으로 개발하고 있습니다.

그래서 이번에는 이러한 포괄적인 데이터 보안을 적용하는 데 있어서 가장 핵심적인 데이터인 서버 로그 데이터를 하둡에서 어떻게 처리하고 인사이트를 신속하게 얻을 수 있는 지에 대해 살펴 보고자 합니다.

먼저 간단한 데모 영상을 보면서 전체적인 흐름을 파악해 보겠습니다.

요약하자면, 호튼웍스 데이터 플랫폼을 활용하여 ‘raw’ 서버 로그 데이터를 정제하고 엑셀을 이용하여 손쉽게 분석하는 것이 전체 시나리오입니다.
먼저 서버 로그 데이터의 속성을 한 번 다시 검토해 봅시다.
서버 로그 데이터는 네트워크와 서버의 운영에서 발생하는 이벤트 데이터를 저장한 로그파일들이기 때문에 단순히 전체 시스템의 성능을 파악하는 용도 뿐만 아니라 보안 관리를 위해서도 특히 유용한 데이터입니다.

서버 로그 데이터의 다양한 적용 사례
기업에서는 서버 로그 데이터 분석을 통해서 크게 아래 와 같은 두 가지 질문에 대한 답을 신속하게 얻을 수 있습니다.
1. Security : 만약에 보안 누스(Security breach)가 의심스러운 상황이라면 서버 로그 데이터를 어떻게 활용하여 이러한 부분을 정확히 식별하고 원인을 지정할 수 있을 것인가?
2. Compliance : 대기업의 경우에는 다양한 법규 혹은 지침에 의해서 시스템을 관리해야 합니다. 시스템 감사와 같은 상황에서 이러한 룰(Rule)이 정확히 지켜 지고 있는 지 혹은 문제가 발생하는 지에 대해서 어떻게 식별하고 근거를 만들 수 있을 것인가?

서버 로그 분석 샘플을 실행하기 위한 프로세스
1. 대량의 로그 데이터를 수집하고, 병합하고, 하둡 클러스터로 효율적으로 이동시키기 위해서 플룸(Flume)을 설치하고 세팅한다.
2. 서버 로그 데이터를 발생시킨다.
3. 서버 로그 데이터를 엑셀로 임포트한다.
4. 엑셀 파워 뷰와 같은 툴로 로그 데이터를 시각화(Visualization)한다.
(샘플 예제에서는 다른 요소들을 배제하고 가장 핵심적인 과정만 수행합니다.)

Step 1 : 분석을 위해서 샘플 로그 파일을 받아 놓습니다.

샘플 서버 로그 파일

<-- 다운로드 받으세요.
'호튼웍스 샌드박스'로 테스트하기 위해서 압축을 풀어서 저장합니다.

Step 2 : 아파치 플룸(Flume)을 세팅하고 론칭합니다.
아파치 플룸(Flume)은 대량의 로그 데이터를 수집해서 하둡 파일시스템(HDFS)로 효율적으로 읽어 들이기 위한 분산 프레임워크라고 보시면 되겠습니다.
아키텍쳐적으로는 데이터 소스의 데이터를 다른 저장소로 스트리밍하기 위한 심플한 구조를 가지고 있습니다.
아파치 플룸은 데이터 플로우가 중간에 실패하거나 하는 상황에 대해서 빠르게 복구하는 데 중점을 두고 있어서 대량의 로그 파일을 이동하는 데 가장 적합하고 유용한 툴입니다.

플룸은 보통 다음과 같이 활용합니다.
- 다양한 데이터 소스로부터 데이터를 수집하여 하둡 파일시스템(HDFS)으로 읽어 들인다.
- 대용량의 웹로그 데이터를 실시간으로 수집한다.
- 입력되는 데이터가 하둡 파일시스템(HDFS)에 원활하게 저장할 수 없을 만한 속도로 들어 오면 자동으로 읽는 속도를 조정한다.
- 데이터 이동시의 문제를 확인해서 재실행 등의 방법으로 데이터 이동을 보장한다.

- 분산 아키텍쳐로 입력되는 데이터의 양에 따라서 수평적으로 확장할 수 있다.

대량의 로그 데이터의 이동을 ‘보장’하기 위한 안정적인 시스템을 직접 개발하는 것은 아주 어려운 일이므로 플룸(Flume)이 가진 아키텍쳐를 활용하면 대량의 데이터 소스에서 나오는 데이터 로그를 원활하게 하둡 파일시스템(HDFS)로 읽어 들일 수 있습니다.

DevGuide_image00

위 다이어그램은 일반적인 데이터가 플룸(Flume)을 통해서 흘러가는 단계를 보여 주고 있습니다.
데이터 로그를 수집하고자 하는 데이터 소스에 플룸(Flume) 에이전트가 깔리고 옮길 목적지를 지정하면 전체적인 과정을 플룸이 안정적으로 운영합니다.
플룸을 세팅하는 자세한 사항은 플룸 프로젝트 페이지에서 확인하세요.

Step 3: 플룸(Flume) 실행하기
호튼웍스 샌드박스가 윈도즈에 인스톨되었다고 가정하고 SSH로 하둡 클러스터에 접속하겠습니다.

Host Name (or IP address): 127.0.0.1
Port: 2222

그리고 ID와 패스워드를 입력해서 호튼웍스 샌드박스에 접속합니다.

아래와 같은 명령으로 실행시킵니다.

flume-ng agent -c /etc/flume/conf -f /etc/flume/conf/flume.conf -n sandbox

Step 4: 샘플 서버 로그 데이터를 발생시키기
이제 샘플 데이터를 발생시키기 위해서 간단한 파이썬(Python) 스크립트를 실행시키고 이 데이터에 대해서 HCatalog를 이용해서 테이블 뷰를 만들겠습니다.

HCatalog는 여러 번 소개드렸던 것처럼 데이터셋에 일종의 테이블 뷰(Vew)를 연관시켜서 이 데이터를 어떻게 해석할 것인지의 틀을 부여하는 모듈입니다.

먼저 샘플 예제의 ‘generate_logs.py’ 스크립트를 호튼웍스 샌드박스로 복사합니다.
예를 들어 WinSCP를 사용한다면 아래와 같이 진행하세요.

그 다음에 위의 스크립트를 실행시키면 샘플 데이터 로그 파일이 생성됩니다.

이제는 HCatalog를 이용해서 테이블 뷰를 만듭니다.

hcat -e "CREATE TABLE FIREWALL_LOGS(time STRING, ip STRING, country STRING, status STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' LOCATION '/flume/events';"

생성된 테이블 뷰는 HUE와 같은 웹 관리 콘솔을 통해서 확인할 수 있습니다.

Step 5: 서버 로그 데이터를 엑셀로 임포트하기
많은 사용자들이 엑셀을 통해서 데이터를 분석하기 때문에 다른 비싼 BI툴보다도 오히려 엑셀과 연동함으로써 손쉽게 결과를 분석할 수도 있습니다.
자세한 연동 방법은 다른 블로그에서도 설명을 드린 것처럼 직관적입니다.

호튼웍스 ODBC driver는 엑셀뿐만 아니라 다른 BI툴도 기존에 익숙한 표준적인 방식으로 연동할 수 있게 해 줍니다.

Step 6: 데이터를 시각화하기
데이터를 시각화하면 네트워크 데이터를 분석해서 이슈를 포괄적으로 이해하는 데 많은 도움이 됩니다.
만약에 DOS(Denial of Service) 공격을 분석하고자 한다면 대략 다음과 같이 데이터를 검토해 볼 수 있겠습니다.

  • 나라 별로 네트워크 트래픽을 리뷰하기
  • 특정한 나라를 확대해서 자세히 살펴 보기
  • 공격 IP 어드레스의 리스트를 만들기

파이어월 로그 데이터”<firewall_logs>” 테이블을 열어서 Status 칼럼을 클릭해서 ERROR를 체크하고 나서OK를 클릭하면 인증이 되지 않은 IP어드레스의 리스트를 볼 수 있습니다.
이 데이터는 바로 파이어월에 업데이트해서 이러한 IP어드레스를 차단하는 등의 후속 작업에 활용할 수 있습니다.

이상 샘플 데모를 간단하게 설명했지만 이 과정에서 하둡이 다양한 데이터 소스의 데이터를 신속하게 처리할 수 있다는 기능은 독립적인 보안 시스템이 아니라 보안에 영향을 미칠 수 있는 모든 시스템들의 로그를 함께 분석할 수 있다는 가능성을 보여 주고 있습니다.

예제에서 본 것처럼, 파이어월의 데이터 뿐만 아니라 내부의 접속 시도, 접속 IP, 접속한 시간 및 접속해서 했던 각종 Activity 로그 등을 종합적으로 판단함으로써 ’360 degree security’에 활용될 수 있겠습니다.

이 분야는 현재 다각도로 논의되고 있고 계속 발전하는 곳이기 때문에 한국의 보안 기업들도 하둡 기반의 포괄적인 보안 솔루션의 개발이라는 목표에 힌트가 되었으면 합니다.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

하둡 파일시스템(HDFS) 2.0으로 기업의 다양한 스토리지 환경에 대응하는 방법

This article is based on Hortonworks Partner Blog

일전의 블로그에서 하둡 2.0의 아키텍쳐 관점의 변화에 대해서 설명을 드린 적이 있습니다.
현 시점에서 반드시 하둡 2.0 기반으로 프로젝트를 진행해야 할 필요가 있을까?
그리고 하둡 2.0의 변화 중에서 하둡 파일시스템(HDFS) 관점에서 변모한 부분도 간략한 개요를 설명드렸습니다.
하둡 파일시스템의 새로운 아키텍쳐 – HDFS 2.0

요약하자면, 하둡 2.0은 대용량 데이터의 다양한 속성에 따른 처리 방법을 유연하게 가져 갈 수 있는 YARN(Yet Another Resource Negotiator)와 하둡 파일시스템(HDFS)을 엔터프라이즈 레벨로 끌어 올리기 위한 업그레이드의 두 가지 측면에서 급격하게 변모했습니다.

이러한 변화의 가장 기반이 되는 하둡 파일시스템(HDFS)의 새로운 기능들은 기업에 적용할 때 반드시 숙지해야 할 필요가 있습니다.
그 중에서 아키텍쳐적으로 가장 큰 변화를 가져 올 수 있는 기능인 ‘Heterogeneous storage for HDFS’에 대해서 살펴볼까 합니다.

하둡의 네임노드(Name Node)는 모든 데이터노드(Data Node)를 똑같은 속성을 가진 것으로 처리합니다.
즉, HDFS는 실제 다양한 스토리지 타입과 성능 특성이 있는 스토리지에 대해서도 모두 ‘공평하게’ 똑같다고 가정하기 때문에 어플리케이션은 특정 데이터를 보다 성능이 좋은 스토리지에 저장하는 등과 같은 옵션이 원칙적으로 힘듭니다.

실제 기업 환경에 적용할 때를 고려하면 이 부분은 상당한 논란을 불러일으킬 수 있습니다.
그 동안 기업들은 다양한 성능을 가진 스토리지를 용도에 맞게 세팅해서 활용함으로써 최적화시켜 왔고 어떤 면에서 하둡을 도입하면 이러한 스토리지 투자를 비효율적으로 만들어 버리지 않는가라는 측면이 있습니다.

독립적인 프로젝트라면 균일한 스토리지로 구성을 하면 되므로 큰 문제가 되지 않지만 기존의 스토리지 시스템을 활용하고자 할 때는 많은 어려움이 있습니다.

HDFS 2.0에서는 특정 어플리케이션의 블록 데이터(Block Data)를 스토리지의 성능이나 안정성 등의 요인을 고려해서 어떤 스토리지에 저장할 지를 선택할 수 있는 옵션을 제공합니다.

heterostorage

좀 더 자세히 설명하면 HDFS 2.0은 아래와 같은 4가지 패턴을 가능하게 해 줍니다.
1. 특정 어플리케이션은 파일을 생성하고 이 파일을 구성하는 데이터 블록(Data Block)을 특정한 스토리지 타입에 저장되도록 지정할 수 있습니다.
예를 들어, 3개의 복제 데이터 중에 2개는 일반적인 하드디스크에 저장하고 1개는 빠른 SSD타입 스토리지에 저장되도록 세팅할 수도 있습니다.
이러한 세팅은 기존의 값비싼 SSD 타입 스토리지의 투자를 충분히 활용할 수 있습니다.

2. 특정 어플리케이션은 어떤 파일의 저장 스토리지를 다른 타입으로 변경해서 저장할 수 있습니다.
즉, 일전에는 분석 작업의 주기가 길어서 하드디스크에 저장했던 데이터를 분기나 혹은 특정 시기에 빠른 분석이 필요할 때 SSD와 같은 빠른 스토리지 타입으로 옮긴 이후에 작업을 진행할 수 있습니다.

3. 하둡 시스템 관리자는 각 스토리지 타입별로 쿼터(Quata)를 지정해서 효율적으로 관리할 수 있습니다.

4. 파일에 대한 액세스 패턴(Access Pattern)에 따라서 가장 많이 쓰이는 데이터를 가장 빠른 스토리지로 자동으로 옮기도록 세팅할 수 있습니다.

이처럼 하둡 파일시스템(HDFS) 2.0은 다양한 스토리지 타입의 속성에 맞게 최적화된 데이터 처리 환경을 만들 수 있도록 진화되었습니다.
기업에서 하둡 2.0을 도입할 때는 각 어플리케이션이 어떤 속성의 데이터를 어느 수준의 속도와 성능으로 처리해야 하는 지를 검토해서 하둡의 스토리지 시스템을 이 정책에 맞춰 최적화함으로써 전체적인 데이터 플랫폼의 속도를 극적으로 향상시킬 수 있습니다.

실제 세팅에 대한 부분은 아파치의 지라(Jira)에서 확인할 수 있고 이 문서를 참조하세요.

—————————————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

ASD Technologies는 펜타호(Pentaho Inc)와의 Consulting and Distribution Partnership을 통해서
빅데이터에서 비즈니스 인사이트를 얻기 위한 방법을 함께 모색하고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
—————————————————————————————————————————–

하둡 파일시스템의 새로운 아키텍쳐 (HDFS 2.0 Next Generation Architecture)

This article is based on Hortonworks Blog

하둡 파일시스템(HDFS)은 아주 안정적이고 확장성이 높은 파일시스템으로서 전체 하둡 에코시스템의 핵심적인 스토리지 시스템입니다.
이러한 HDFS가 YARN(Yet Another Resource Negotiator)와 만나면서 이제야 본격적인 분산 데이터 플랫폼으로서 기업에서도 활용할 수 있는 단계로 진입하고 있습니다.

YARN에 대해서는 이전의 블로그에서 간단한 데모를 공유했습니다만 이번에는 HDFS의 관점에서 좀 분석해 보고자 합니다.

HDFS 2.0에서 가장 큰 주안점을 둔 분야라면 역시 멀티 태넌시(Multi-tenancy), 비즈니스 지속성 혹은 가용성(Business Continuity) 그리고 각종 엔터프라이즈 시스템과의 연동성(Enterprise Integration)을 들 수 있겠습니다.
(HDFS has introduced a slew of major features to HDFS covering Enterprise Multi-tenancy, Business Continuity Processing and Enterprise Integration)

몇 가지 중요한 피쳐(Feature)들을 잠깐 나열해 보면,
1. Automated Failover (Enabled automated failover with a hot standby and full stack resiliency for the NameNode master service)
그 동안 네임노드(Name Node)가 SPOF(Single Point of Failure)로 지적받아 왔지만 이번에 이 분야에서 많은 개선이 있었습니다.
2. NFS Read/Write (Added enterprise standard NFS read/write access to HDFS)
3. Snapshot (Enabled point in time recovery with Snapshots in HDFS)
특히, 특정 시점의 데이터를 저장하고 복원하기 위한 스냎샷(Snapshot) 기능은 중요한 업그레이드입니다.
4. Wire Encryption for HDFS Data Transfer Protocol
일전의 블로그에서 다뤘던 것처럼 데이터 전송 시의 암호화는 많은 발전이 있었습니다.

그러면 어떤 엔터프라이즈 니즈에 의해서 HDFS의 로드맵을 잡게 되었을까요?
가장 큰 이유는 단순한 배치 처리(Batch processing) 이외에 다양한 패턴의 데이터 처리 요구가 늘어났다는 점입니다.

두 번째 이유는 기업의 데이터센터는 다양한 스토리지 타입의 장비들을 이용하고 있다는 점이고 HDFS도 이 부분을 지원해야 하는 니즈도 꾸준히 제기되어 왔습니다.
사실 HDFS 1.0의 철학은 모든 스토리지는 공평하게 처리한다는 단순화의 원칙이 있었지만 기업 고객들의 입장에서는 많은 투자를 한 스토리지 장비의 성능을 충분히 이용하고자 하는 요구가 지속적으로 제기되어 왔습니다.
(This is a shift from prior Hadoop cluster design, where all disks were treated equally in each node – JBODs attached to each data node.There is a need to take advantage of all storage and memory hardware – spinning disks, solid state drives, RAM memory and external storage.)

즉, HDFS 2.0에서는 하둡 클러스터 관리자가 특정 데이터에 대해서 어떤 스토리지를 우선적으로 사용할 것인지 지정할 수 있습니다.
예를 들면, HBase는 데이터 파일이 SSD에 저장되도록 요청할 수 있어서 아주 빠르게 데이터를 읽고 쓸 수 있도록 HDFS를 설정할 수 있습니다.
“Tiered Storage Support”라고 불리는 이 기능에 대해서는 이 문서(HDFS-2832)를 참조하시기 바랍니다.

그 외에 중요한 부분이 데이터셋의 캐슁(Caching)을 지원했다는 점입니다.
메모리에 캐쉬하는 것이 필요한 데이터셋을 지정해서 빠르게 처리할 수 있도록 하기 위해서 핵심적인 업그레이드입니다.

“HDFS Caching”에 대해서는 다음 문서를 참조하세요.

HDFS 2.0은 기업 환경의 요구를 수용하면서 기업 데이터센터에 적합한 파일시스템으로 진화하고 있습니다.

———————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–