Tags

하둡을 의료 정보 업계의 혁신에 적용하기 위한 방법(Modern Healthcare Architectures Built with Hadoop)

This article is based on Hortonworks Partner Content

일전에 통신사 및 전자 상거래 분야에서의 활발한 하둡 적용에 대해서는 간단히 소개를 했습니다.
빅데이터를 통해서 가장 혁신이 일어날 수 있는 분야에 대해서는 의료 업계(Health care industry)로 꼽는 전문가들이 많습니다.
아직 본격적으로 적용이 되지 않은 시점이지만 호튼웍스에서 의료 정보 업계에 적용이 가능한 아키텍쳐를 공개해서 함께 소개하려고 합니다.

단순히 기술적인 문제가 아니라 구조적으로 의료정보 체계가 갖는 문제점들은 뉴스에서도 많이 다루어지고 있습니다.
가장 많은 사회적 비용이 투입되고도 가장 비효율적인 분야라는 보고서들도 많이 있습니다.

그 중에서 의료 정보 시스템의 관점에서 가장 큰 문제점은 의료 정보의 데이터들이 필요한 곳에 잘 흘러가는 구조가 아니라는 인식입니다.
이른바, 데이터 유동성(Data Liquidity)로 표현이 되는 것 같습니다.

맥킨지에서 발표한 이 분야에 대한 분석 보고서를 함께 공유합니다.
이 곳에서 다운로드할 수 있습니다. <-- 다운로드
이 보고서는 데이터가 필요한 관계자들에게 잘 "흘러가도록"하는 과정을 통해서 얻을 수 있는 가치에 대해 요약하고 있습니다.
그리고 이 분야에서 하둡이 어떻게 적용될 수 있는 지에 대한 UCIH case study의 보고서도 함께 보면 이 분야에 대한 인사이트를 얻을 수 있겠습니다.

Pathway Benefit Hadoop Use Case
Right Living Patients can build value by taking an active role in their own treatment, including disease prevention. Predictive Analytics: Heart patients weigh themselves at home with scales that transmit data wirelessly to their health center. Algorithms analyze the data and flag patterns that indicate a high risk of readmission, alerting a physician.
Right Care Patients get the most timely, appropriate treatment available. Real-time Monitoring: Patient vital statistics are transmitted from wireless sensors every minute. If vital signs cross certain risk thresholds, staff can attend to the patient immediately.
Right Provider Provider skill sets matched to the complexity of the assignment— for instance, nurses or physicians’ assistants performing tasks that do not require a doctor. Also the specific selection of the provider with the best outcomes. Historical EMR Analysis: Hadoop reduces the cost to store data on clinical operations, allowing longer retention of data on staffing decisions and clinical outcomes. Analysis of this data allows administrators to promote individuals and practices that achieve the best results.
Right Value Ensure cost-effectiveness of care, such as tying provider reimbursement to patient outcomes, or eliminating fraud, waste, or abuse in the system. Medical Device Management: For biomedical device maintenance, use geolocation and sensor data to manage its medical equipment. The biomedical team can know where all the equipment is, so they don’t waste time searching for an item.Over time, determine the usage of different devices, and use this information to make rational decisions about when to repair or replace equipment.
Right Innovation The identification of new therapies and approaches to delivering care, across all aspects of the system. Also improving the innovation engines themselves. Research Cohort Selection: Researchers at teaching hospitals can access patient data in Hadoop for cohort discovery, then present the anonymous sample cohort to their Internal Review Board for approval, without ever having seen uniquely identifiable information.

아래 이러한 유스케이스에 맞춰서 호튼웍스가 제시하는 레퍼런스 아키텍쳐(Reference Architecture)는 다음과 같습니다.

healthcare-mda

의료 정보 시스템의 소스 데이터

  • Legacy Electronic Medical Records (EMRs)
  • Transcriptions
  • PACS
  • Medication Administration
  • Financial
  • Laboratory (e.g. SunQuest, Cerner)
  • RTLS (for locating medical equipment & patient throughput)
  • Bio Repository
  • Device Integration (e.g. iSirona)
  • Home Devices (e.g. scales and heart monitors)
  • Clinical Trials
  • Genomics (e.g. 23andMe, Cancer Genomics Hub)
  • Radiology (e.g. RadNet)
  • Quantified Self Sensors (e.g. Fitbit, SmartSleep)
  • Social Media Streams (e.g. FourSquare, Twitter)

이러한 데이터 소스를 하둡으로 로딩하는 방법

Apache Sqoop은 여러 번 소개를 했던 것처럼 호튼웍스 데이터 플랫폼(Hortonworks Data Platform)에서 다양한 관계형 데이터 베이스(예를 들면, Teradata, Netezza, MySQL, Oracle)와 하둡 파일시스템과의 데이터 이동을 자동화할 수 있는 모듈입니다.
그리고 플룸(Flume)을 활용하면 비정형 데이터에 대해서도 데이터 이동을 자동화할 수 있습니다.

의료 정보 데이터의 처리
하둡은 세가지 형태의 처리 방식을 지원하는 형태도 발전했습니다.
- 배치 처리 : MapReduce, Pig 등
- SQL 문을 통한 결과 처리 : HIVE, HBase 등
- 스트리밍 데이터에 대한 실시간 처리 : Storm 등

의료 정보 데이터의 분석
일단 이러한 데이터들이 하둡에 저장되면 저장된 상태에서 바로 분석하거나 아니면 다른 분석용 데이터베이스로 이동시켜서 분석하는 두 가지 형태로 기업 환경에 맞게 분석이 가능합니다.

  • Enterprise data warehouse
  • Quality data mart
  • Surgical data mart
  • Clinical info data mart
  • Diagnosis data mart
  • Neo4j graph database

이 단계에서 HIVE가 제공하는 RDB형 테이블 구조(뷰)를 ODBC 등의 표준 인터페이스로 다양한 분석툴과 연동할 수 있습니다.

자세한 레퍼런스 아키텍쳐에 대한 백서는 아래 주소에서 다운받을 수 있습니다.
Build a Modern Architecture for Health care industry <-- 다운로드

-----------------------------------------------------------------------------------------------------------
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–

하둡 프레임워크와 구성 요소

Hadoop의 Framework및 구성요소에 대해서 한번 이야기 해보겠습니다.

Hadoop은 크게 2가지 구성요소를 가지고있습니다. 하나는 HDFS 이며 또 하나는 MapReduce입니다.

위에 그림을 보셨듯이 크게 HDFS layer과 MapReduce layer로 나눠지는데요. 2가지 핵심기술에대해서는 자세히 설명하지 않겠습니다. 좌측 메뉴에 보시면 대 분류로 나와있고 그곳에서 설명드리겠습니다.

간단히 2개의 핵심 주요 기능을 간단히 설명하자면

HDFS : 파일 저장기술 ( html, 이미지, 동영상, PDF, 로그 등등 )
MapReduce : 위에 저장된 내용을 병렬로 분석하는 기능

또한 Hadoop은 다른 sub 프로젝트로 구성되어 있습니다. 다른 연관 Project와 연동시 아키텍처는 아래와 같습니다.

위에 보면 회색과 연두색 2가지 종류로 구분되어있는데요. 연두색부분이 Hadoop안에 구성되어있는 부분이며 나머지부분은 연관된 sub project입니다.각각의 Subproect는 저의 Blog의 좌측 메뉴를 보시면 Detail한 내용을 접하실수 있습니다.

간단히 Sub Project를 설명하자면 아래와 같습니다. Subproject로 없는것도 있겠지만 참고만 해주세요.

Avro™: A data serialization system.
Cassandra™: A scalable multi-master database with no single points of failure.
Chukwa™: A data collection system for managing large distributed systems.
HBase™: A scalable, distributed database that supports structured data storage for large tables.
Hive™: A data warehouse infrastructure that provides data summarization and ad hoc querying.
Mahout™: A Scalable machine learning and data mining library.
Pig™: A high-level data-flow language and execution framework for parallel computation.
ZooKeeper™: A high-performance coordination service for distributed applications

———————————————————————————————————–
ASD Technologies는 호튼웍스(Hortonworks Inc)와의 Consulting Partnership을 통해서
빅데이터에 대한 도입 컨설팅 및 구축을 도와드리고 있습니다.

호튼웍스 파트너 홈페이지
ASD Technologies Korea 홈페이지

Contact Point : sunung@asdtech.co
———————————————————————————————————–