用于医疗保健和生命科学的分布式系统架构

NEWS前沿动态

用于医疗保健和生命科学的分布式系统架构

来源：CPDA数据分析师网 / 作者：数据君 / 时间：2020-07-06

分布式系统架构

医疗保健和生命科学行业中的许多组织现在都在探索围绕分布式处理架构Hadoop中占主导地位的条目的机会，并正在寻找入门的方法，尽管Hadoop自2011年以来一直在市场上销售，但它仍然是这些领域中的一种相对较新的技术，而Spark常常用于阶段2，用于不同的用例和高级用户。

当今的医疗保健行业面临着艰巨的挑战和选择-研究人员

临床医生和管理人员必须做出重要的决定-通常没有足够的数据，像Hadoop这样的分布式系统提供了开放源代码平台，以使医疗数据可用并具有可行性，研究人员探索癌细胞的遗传结构；护士和医师对重症监护患者进行监控；管理员在患者离开医院之前提交报销要求，分布式计算系统正在改变医疗保健，医疗保健提供者可以通过使用数据分析获得更有价值的见解，管理成本并为患者提供更好的护理选择，大数据技术使提供商能够存储，分析和关联各种数据源以推断知识，好处包括有效的临床决策支持，更低的管理成本，更快的欺诈检测以及简化的数据交换格式。预计到2020年健康数据分析的采用率将从2011年的10％增长到近50％，复合年增长率为37.9％。

Hadoop是一项强大的技术实例，它允许医疗保健以其本机形式存储数据

如果Hadoop不存在，则必须决定可以将哪些内容合并到数据仓库或电子病历中（哪些不能），现在无论数据格式或提取速度如何，一切都可以引入Hadoop，如果找到新的数据源，则可以立即将其存储，没有数据遗留下来，到2017年底数百万人的健康记录数量可能会增加到数百亿，因此计算技术和基础架构必须能够提供具有成本效益的以下实现：

1、不受限制的并行数据处理

2、为数十亿亿的非结构化数据集提供存储

3、容错能力以及系统的高可用性

4、Hadoop技术成功地解决了医疗保健行业面临的上述挑战，因为MapReduce引擎和Hadoop分布式文件系统（HDFS）能够处理数千TB的数据，Hadoop使用高度优化的廉价商品硬件，使其成为医疗行业的预算友好型投资。

Hadoop用例

在传统的IT环境中，临床，运营和财务数据在数据孤岛中进行管理，同时随着从纸质病历到电子病历的迁移，以及产生稳定数据流的机器和医疗设备的使用增加，医疗机构捕获和分析的数据量激增，而各种数据已经增长，Hadoop平台允许医疗保健组织以安全且经济高效的方式处理和管理越来越多的数据，以提高质量和负担能力，他们可以利用该平台将来自各种来源的各种格式的大量详细数据汇总在一起，并将其整合到一个灵活且可扩展的系统中，以进行长期存储和分析。

癌症治疗和基因组学–在生命科学界中采用Hadoop已成为主流

主要针对下一代测序和简单的读取映射，因为开发人员发现许多生物信息学问题已很好地转移到Hadoop，尤其是大规模。

1、监视患者生命周期–全世界有几家医院使用Hadoop帮助医院工作人员有效地处理大数据。没有Hadoop，大多数患者护理系统甚至无法想象使用非结构化数据进行分析。

2、医院网络– Hadoop技术用于帮助医学专家实时分析来自多种来源的高速数据，例如财务数据，工资数据和EHR。

3、医疗保健智能– Hadoop技术用于培养医疗保健智能应用程序，可通过设计智能业务解决方案来帮助医院，付款人和医疗保健机构提高竞争优势。

欺诈检测和预防–使用Hadoop技术，保险公司已经成功开发了预测模型，以利用医疗索赔的实时和历史数据，天气数据，工资，语音记录，人口统计资料，律师费用和电话来识别欺诈中心笔记。Hadoop的功能是在NoSQL数据库中存储大型非结构化数据集，并使用MapReduce分析此数据，这有助于在欺诈检测领域分析和检测模式。

Spark用例

精准医学–精准医学的前景是一个深远的目标

它将要求彻底改变医师治疗患者的方式，收集健康数据以及进行全球合作研究，精密医学通常描述一种治疗和预防疾病的方法，其中要考虑到患者的基因，生活方式和环境的个体差异。要完成这项任务，需要依靠多项技术创新和对健康数据的重大重组，以关注个人的基因组成。医疗保健生态系统已经选择了用于处理大数据的各种工具和技术，但是在许多新架构中不断出现的一种工具是Spark。Spark已经以大数据分析的主要参与者而闻名。

基因组学算法–当前流行的基因组学算法向Spark的过渡是研究人员利用云的分布式处理功能的一种途径

其中许多已经在Spark之上构建，尽管Spark提供了许多基础架构优势，但Spark仍然使用受研究社区欢迎的语言，诸如SparkR之类的语言可以轻松过渡到云中，计算神经科学–霍华德·休斯大脑研究所就是利用Spark进行研究的一个例子，该项目的目标是通过监视和解释行为期间大型神经元网络的活动来了解大脑功能，一个鼠标一个小时的大脑成像可以产生50-100 GB的数据，研究人员开发了一个名为Thunder的分析工具库，该库基于使用Python API的Spark和现有的用于科学计算和可视化的库，Thunder的核心是以RDD操作语言表达不同的神经科学分析，可以使用MapReduce并行化许多计算，例如摘要统计量，回归和聚类。

Prev article

大数据在互联网时代的新安全挑战

返回列表

Next article

大数据与医疗保健和生命科学