将机器学习与健康数据结合使用:挑战与陷阱
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-06-17
临床医师通过监测生命体征以及其他数百种特征来了解何时需要长期护理患者
人体由相互影响的几个系统组成,每个系统都有自己的目标和控制机制,在我们的模型中,可以使用描述其状态和控制模型(例如反馈回路)的特征和生命体征矢量对每个系统进行建模。例如,大脑通过增加或减少呼吸来控制血液中的二氧化碳水平。
在我们的ML专家和生物医学工程师团队的帮助下,我们确定了对生理过程建模的几个重点领域在某些领域,我们得出的结论是违反直觉的。
需要可追溯的结论当某人的生命在线上时
临床医生需要了解如何操纵数据以获得特定结果,我们与之交谈的临床医生对只能给出终答案的解决方案并不满意–他们想知道导致具体结论的潜在因素,这一发现加强了我们对数学建模过程的关注,并获得了对系统工作原理的深刻理解,我们不愿寻求黑盒解决方案,即使这意味着总体精度会略有降低,这种方法是确保每个决策可追溯到产生决策的生命体征趋势的方法。
量身定制的数据采集
还没有强大的生理信号数据库可用来创建模型,为了使任何培训都能正常进行,我们必须在信号中拥有足够的数据量和足够的信息,我们提出了一种特定的传感器配置,并针对数百名患者进行了自己的临床试验,以收集我们模型所需的数据阈值,以创建可在许多不同人口统计数据中使用的设备,我们很早就了解到,在不同患者体质上实现高信号质量是一个巨大的挑战,我们创建了一个自适应的广域传感器来适应这些生理差异,动脉的位置及其动态特性在整个人中差异很大,我们必须找到解决方案以在所有类型的患者中准确地从信号中获取信号。
简单更好听起来似乎很明显,但是如果对数据进行适当的预处理
简单的模型将产生出色的结果,当我们创建机器学习算法来预测连续的生命体征以及患者生理状态向量时,简单模型对我们更有效,正确的生理建模会带来巨大的变化,并将设计不良的功能转变为非常相关的功能,生理建模还可以识别某个功能可能在哪些地方相关,哪些地方可能无关,这就是我们使用更简单的模型并避免进行深度学习的原因之一。
利用专业知识,不仅是数据
我们避免深度学习的另一个原因是,医生的表现比任何深度学习模型都要好得多,任何人为或机器学习模型的性能都取决于用于训练它的数据量,ML的公开可用数据集是零散的并且相对较小,他们无法与医师在医学院接受的广泛培训以及在研究或护理提供上花费的数十年相提并论,有朝一日,机器学习数据集可能会迎头赶上,但是直到那时,我们看到将已知的医学和生理规则集和指标以及专家意见纳入我们的模型中的巨大价值。
健康数据需要高度定制
现实世界中任何ML算法的实现都至少需要一定程度的定制,就健康数据而言,所需的自定义级别很高,原因有以下三个:人体固有的复杂性,数据源的可访问性和相关性以及与现有医疗系统的集成,努力解决这些问题:我们已经看到了隧道尽头的曙光,随着更多数据的可用,使用ML和AI的障碍将消失,目前我们仍然需要谨慎行事。