하둡 클러스터는 어느 정도 크기로 해야 할까? (How big is big anyway?)

This article is based on Hortonworks Blog.

빅데이터에 대한 도입을 결정하는 데 있어서 현실적인 문제 중의 하나는 아마도 어느 정도 규모의 하둡 클러스터를 구축해야 하는가?
라는 문제에 집중이 될 것 같습니다.

경험이 많은 아키텍트들은 기존의 IT 수요를 분석하는 나름의 방법론을 가지고 어느 정도 예측이 가능하지만
하둡에 대한 경험이 없는 경우에는 클러스터를 어떤 규모로 준비(Provisioning)해야 하는 지 고민이 많은 것도 사실입니다.

호튼웍스(Hortonworks)에서 재밌는 툴을 하나 공개했네요.
아주 간단하게 조건을 입력하면 대략적인 사이즈를 보여 주는 툴입니다.
그리고 하둡 클러스터를 설계할 때 필요한 백서도 공유하고 있는 데 이 백서는 하둡 도입을 고려하는 아키텍트에게는 권할 만한 내용입니다.

하둡 클러스터를 디자인하고 사이징하는 과정은 실제로 하둡 아키텍트들이 고객들과 가장 많은 시간을 들이는 과정이므로 기본적으로 어떤 가정들을 통해서 설계하는 지에 대한 인사이트는 아주 중요하다는 생각입니다.
스토리지 볼륨의 크기에서부터 성장률(Growth rate), 압축률까지 고려해야 할 사항은 아주 많습니다.

built a cluster-size-o-tron which performs a more simplistic calculation based on some assumptions on node sizes and data payloads to give an indication of how big your particular big is.

보다 자세한 내용은 Cluster Configuration Guide를 참조해서 인사이트를 얻으세요.

———————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–