하둡을 도입할 때 반드시 고려해야 할 점 (5 Things to Consider for Hadoop Integration in the Enterprise)

This article is based on Hortonworks Blog

최근에 빅데이터를 활용해서 기업의 경쟁력을 높히기 위해서 많은 도입 논의가 있습니다.
하지만 아직 하둡의 도입의 관점에서 냉정하게 보면 아직도 초기 단계인 것은 확실합니다.

기술적인 앵글을 넘어서 빅데이터가 기존의 업무 프로세스와 데이터 처리 방식에 어떻게 영향을 줄 것인가의 관점에서 접근하는 논의는 이제 시작 단계라는 생각이 많이 듭니다.

그래서 기업의 도입 논의에서 고려해야 할 사항들을 5가지로 정리한 글을 소개하고자 합니다.

1. 데이터의 크기는 잊어 버려라. (Forget volume or don’t focus on it)
빅데이터라는 정의가 많은 혼란을 주곤 하지만 사실 빅데이터 프로젝트는 반드시 데이터 볼륨의 크기와 연관이 있는 것은 아닙니다.
빅데이터를 논의할 때는 데이터 볼륨의 크기 뿐만 아니라 데이터 소스(Data Source)의 다양성과 데이터 포맷(format)의 다양성과도 관련이 깊습니다.
하둡은 초기부터 관계형 데이터베이스와 데이터를 보는 관점에 차이가 있습니다.
즉, 하둡은 데이터 소스의 포맷을 그대로 유지하고 저장하면서 이것을 ‘처리’하는 단계에서 어떻게 데이터를 바라 볼 것인지를 정하는 방식입니다.
그래서 유연하게 다양한 데이터 소스와 포맷에 대응할 수 있습니다.

“의미 있는 데이터 소스를 식별하라” – 물론 그 크기보다는.
(Make sure you go after the “right” data: identify all the sources that are relevant, and don’t be embarrassed if you don’t need to scale your data computing cluster to hundreds of nodes right away!)

당연하게 들리겠지만 빅데이터 프로젝트를 진행하면 아무래도 데이터 볼륨의 크기나 확장성 등이 논의의 중심을 차지하는 경향이 있습니다.
그것보다는 그 회사의 전략 혹은 프로젝트의 목적에 적절한 데이터란 무엇인가에 대한 논의가 핵심이 되어야 한다는 취지입니다.

2. 데이터를 놓치고 가지 말고 포괄적으로 판단하라.(Don’t leave data behind – be comprehensive.)
실제로 도입 단계에서 우리에게 적절한 데이터를 판단할 때는 이른바 ’1차 데이터’라고 부르는 잘 정리되어 있고 그 데이터의 가치가 잘 알려져 있는 데이터를 위주로 생각하게 됩니다.
예를 들면, 재고 관리 시스템과 같은 비즈니스 어플리케이션에서 나오는 데이터를 예로 들 수 있겠습니다.
하지만 이러한 데이터 위주로 판단을 하게 되면 빅데이터 구축의 가능성을 많이 축소시킬 수 도 있습니다.

사실 기업의 중요한 인사이트는 각종 로그파일, 생산 시스템의 이벤트들, 각종 서버의 상태 정보들, 소셜 네트워크의 상품에 대한 의견들과 같이 기존에 여러 가지 이유로 다루어 지지 않은 데이터 소스들에 있습니다.

프로젝트의 규모를 정할 때 적절한 데이터를 좀 더 포괄적으로 보기 위한 관점이 중요하고 하둡은 합리적인 비용으로 이것을 처리할 수 있게 해 줍니다.

3. 모든 데이터를 모으려는 노력보다는 논리적으로 잘 분산시켜라. (Don’t move everything – distribute data “logically.”)
많은 기업들이 빅데이터 프로젝트를 진행할 때 기존에 데이터웨어 하우징(Dataware-housing) 프로젝트를 진행할 때처럼 모든 데이터를 중앙으로 모으거나 어떤 지점으로 옮기는 데 초점을 맞추고 있습니다.
물론 하둡은 데이터를 중앙화하는 데 적합한 기능을 가지고 있습니다.

하지만 하둡을 중심으로 무리하게 데이터를 옮기려는 노력보다는 적절히 분산시키는 것이 훨씬 효율적이고 성공 가능성이 높습니다.
이른바 “논리적인 데이터웨어하우스”라는 개념이 빅데이터 프로젝트에는 더 어울릴 지도 모릅니다.
(The “Logical Data Warehouse” concept applies well in the “non big data” world. Leverage it for big data.)

4. 스토리지 뿐만 아니라 데이터 처리 플랫폼에 대해서도 충분히 고려하라.(It’s not only about storage – think processing platform)
보통은 하둡이 가진 분산 스토리지에 초점을 두고 데이터를 어떻게 분산시켜서 관리할 지에 대한 논의가 많이 이루어 집니다.
물론 가장 기본적이고 중요한 논의이기는 하지만 이것은 하둡의 파일 시스템(HDFS)에 국한된 논의라고 봐도 되겠습니다.

하둡은 에코시스템을 통해서 데이터를 처리하고 의미 있는 인사이트를 주기 위한 효율적인 방법들을 많이 가지고 있습니다.
특히, 하둡 2.0의 YARN의 도입과 함께 데이터의 속성에 맞게 배치 처리부터 실시간 처리에 이르기까지 다양한 처리 방식을 지원합니다.

물론 R 등과 같은 통계 패키지부터 상용 분석툴에 이르기까지 하둡 기반의 데이터를 분석하기 위한 많은 방법들이 속속 발표되고 있습니다.
데이터 처리 플랫폼에 대한 폭넓은 고려를 해서 의사 결정을 하는 것이 중요합니다.

5. 빅데이터를 독립된 혹은 격리된 프로젝트로 진행하지 마라.
특히 한국에서는 도입 논의 시에 가장 중요한 포인트라고 생각합니다.
빅데이터를 기존의 IT 거버넌스(governance)난 업무 프로세스(Business Process)의 밖에서 독립된 프로젝트로 진행이 된다면 성공 가능성이 크지 않다고 봅니다.

빅데이터는 Poc(Proof of concept)단계부터 기존에 기업이 운영하고 있는 IT 인프라 및 운영 정책의 틀에서 논의되어져야 합니다.
Poc 단계를 단순히 하둡 클러스터의 구축 및 샘플 데이터의 처리 등과 같은 관점에서 진행하면 막상 최종 단계에 적용할 때 많은 부분을 다시 고려해야 하는 문제점이 발생할 가능성이 높습니다.

도입 단계에서 빅데이터 프로젝트를 포괄적인 관점에서 논의하는 것이 중요하다는 점으로 요약할 수 있겠습니다.

5 Things to Consider for Hadoop Integration in the Enterprise 원문 참조.

———————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–