400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

预测性机器学习的不足之处以及我们可以做些什么?

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-07-02

机器学习的基本方式仍然存在一些问题

ML算法需要大量数据和数据处理能力,才能提供可靠的预测,即使这些资源可用,算法也会失败,更糟糕的是,它们经常以意外的方式失败,这使得管理部署它们的风险变得困难。

 

研究预测ML的不足之处,其含义以及可以采取的措施

ML无法做出可靠(甚至有用)的预测的例子不胜枚举,早的项目之一是Google构建的程序,该程序试图通过搜索有关流感的信息来预测流感的爆发,首先该模型是准确的,但是在2013年左右,它开始遇到麻烦,并预测了没有此类问题的地方的疫情暴发,Google 2013年非常安静地停止了该计划,一个更壮观的例子发生在2013年, 尽管人类新闻工作者(或至少是负责任的新闻工作者)立即试图验证该报道并很快发现它是伪造的,但用于投资股票市场的机器学习算法却并非如此,他们将该消息评为可靠,道琼斯工业平均指数下跌了7,360亿元,3分钟后,市场暴跌得到纠正,但多年来对市场的信心动摇了。

 

十年前虽然机器学习系统的故障已广为人知,但它们仍然是学术上的新颖事物

但是如今机器学习算法已部署在许多不同的领域,以至于故障的后果可能很严重,机器学习算法现已用于做出医疗保健决策,检测身份盗用和欺诈,甚至做出法院裁决,而在所有这些领域中,机器学习系统的故障都可能导致严重的人类痛苦。

 

失败的原因 ML算法失败的主要原因有两个

一种是当用户积极尝试颠覆训练ML系统的模型时,例如在上述Google flu算法中,部分情况就是如此,但在其他领域也经常发生这种情况,例如整个网络防御行业都依赖于人类意外行动的能力,并避免引起机器学习驱动的网络安全系统的注意。

 

失败的第二个主要原因是人类的行为突然改变

这在购物算法中常见,尤其是因为这是ML模型被普遍应用的地方,例如机器学习系统可以很好地证明,搜索和购买洗手液可以很好地预测某人正在怀孕,不幸的是如果全球大流行爆发(例如Covid-19),该模型将突然报告说世界上有一半人怀孕了,这似乎是一个不寻常的例子,但是实际上,在线零售算法经常被人们购买商品的突然变化所迷惑,并且消费者行为的这些变化也影响了对库存管理和欺诈检测建模的算法。

 

在这两种故障模式下,故障ML的影响都由另一个因素来加剧:在许多情况下,模型本身无法准确地估计其预测的可靠性,近的研究表明,被教导识别图像的机器学习不仅在评估他们从未见过的图像类型方面很糟糕,而且(更糟糕的是)他们对错误的猜测表示出很高的信心。

 

解决方案:稳健性克服这些挑战并非易事

可能将取决于计算机科学许多领域的贡献,例如一些研究人员正在研究更高级的数据分析技术,例如拓扑数据分析,该技术有望使ML更加有效地评估其训练数据,在探索这些方法的同时,我们将需要研究机器学习在商业和社会系统中的嵌入方式,并寻求限制其失败的影响。

 

机器学习故障及其含义的研究已被称为“鲁棒性”研究,该领域的研究人员指出,迄今为止,机器学习的应用是那些算法与人类协同工作的应用,而不是试图对独特情况做出黑白决定,例如现在部署在医疗保健环境中的许多机器学习系统可以帮助医务人员进行诊断,但是没有人认为机器学习预测仅是指导。

 

限制风险当然这并不是说机器学习系统在现代经济中没有地位

语音识别,机器翻译和网络搜索应用程序可能会继续成为ML的主要受益者,在这些应用程序中,大型的不断更新的模型可以在几乎没有风险的情况下实现可访问性的改进,当机器学习系统有权对快速变化的情况做出二进制决策时,问题就来了,在这些情况下,很明显,在我们可以依靠它们之前,必须大大提高这些系统的可靠性。

 

 

Prev article

我们如何利用我们的数据预测能力呢?

Next article

为什么小企业不应该害怕大数据?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务