在实际工作中怎样面对应用机器学习的挑战
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-04-28
企业如何成功或失败地将机器学习集成到其产品和业务模型中
真实世界的AI解释了机器学习策略的常见挑战和陷阱,以及产品如何避免重复其他组织的失败,知道要解决的问题是一项挑战,它适用于所有软件工程任务,任何有经验的开发人员都会承认,“做正确的事”不同于“做正确的事”,在应用机器学习中,定义问题在您对技术,数据源和将要使用您的产品的人员的选择中起着至关重要的作用,只有20%的大型公司处于试验阶段的AI才能投入生产,而且许多都无法尽其所能为客户提供服务,在某些情况下这是因为他们试图解决错误的问题,在其他情况下,这是因为它们无法考虑所有对模型的成败至关重要的变量或潜在偏差。
考虑图像分类问题
深度神经网络可以惊人的精度执行此类任务,但是如果要将它们应用于实际应用程序,则对问题的详细定义将确定所需的模型,数据,人才和投资的类型,如果您想要一个可以标记图像档案中文件的神经网络,则可以使用很多预先训练的卷积神经网络和公共数据集开箱即用,您可以在自己的服务器上设置深度学习模型,并通过它运行图像,或者您可以注册基于API的服务,在这种情况下,推断将在服务提供商的服务器中完成。
假设您正在一家大型农业公司工作
并且想要开发一种可以在无人机上运行并且可以检测农作物中杂草的图像分类器,希望这项技术将帮助您的公司转而精确地使用除草剂,以降低成本,浪费和化学药品的负面影响,在这种情况下您将需要一种更专业的方法,您必须考虑对机器学习模型和数据的约束,您需要一个足够轻的神经网络,以在边缘设备的计算资源上运行,而且您将需要一个特殊的带有杂草和非杂草植物标签图像的数据集。
在机器学习中,定义问题还包括确定要解决问题的程度
在图像档案标签的情况下,如果您的机器学习模型将每100张图像中的5张标签错误,那么您应该不会有太大的问题,但是如果要创建癌症检测神经网络,则需要更高的标准,每个遗漏的案件都可能会影响生命。
收集训练数据
在许多应用的机器学习应用程序中
公共数据集对于训练模型没有用,您需要收集自己的数据或从第三方购买它们。两种选择都有其自身的挑战,真实世界AI:负责任的机器学习实用指南,在前面提到的除草剂监视场景中,该组织将需要捕获很多农作物和杂草的图像,为了使机器学习模型可靠地工作,工程师将需要在不同的光照,环境和土壤条件下拍照,收集数据后,他们需要将图像标记为“植物”或“杂草”,数据标记需要手动工作,这是一项艰巨的工作,并且已经引起了整个行业的发展,有数十个平台和公司为AI应用程序提供数据标记服务。
例如医疗保健和银行业,培训数据将包含敏感信息
在这种情况下,外包标签任务可能很棘手,产品团队将必须小心,不要违反隐私和安全法规,然而在其他应用程序中,数据可能会分散并分散在不同的数据库,服务器和网络中,当组织从各种来源获取数据时,他们还将面临其他挑战,例如数据库架构之间的不一致,约定不匹配,数据丢失,数据过时等等,在这种情况下,机器学习策略的主要挑战之一将是清理数据并将不同的源合并到一个数据湖中,以支持ML模型的训练和维护。
在数据来自不同数据库的情况下
验证数据质量和出处对于机器学习模型的质量也至关重要,在企业中发现分散在不同部门的整个数据库中的数据而没有任何有关它来自何处或如何到达那里的任何文档,这在企业中是非常普遍的,随着数据从收集到数据库的那一刻开始出现,很可能已经以一种有意义的方式对其进行了更改或操纵,如果您对正在使用的数据如何到达那里进行假设,那么终可能会产生无用的模型。
维护机器学习模型
齿轮自动化
机器学习模型是一种预测机器
可以从世界上获得的数据中查找模式,并根据当前的观察结果预测未来的结果,随着我们周围世界的变化,数据模式也会发生变化,并且根据过去的数据训练的模型会逐渐衰减,AI并不是一种“设置即忘了”的系统,无需人工干预就能不断创造出结果,它需要不断的维护,管理和过程校正,才能继续提供有意义的期望输出,一个明显的例子是covid-19大流行,该大流行引起了全球范围内的封锁,并改变了许多生活习惯,从而破坏了许多机器学习模型,例如随着购物从实体店转变为在线商店,用于供应链管理和销售预测的机器学习模型已过时,需要重新培训。
任何成功的机器学习策略的关键部分是确保您具有基础结构和流程来收集连续的新数据流并更新模型
如果您使用的是监督式机器学习模型,则还必须弄清楚如何标记新数据,在某些情况下,您可以通过提供工具来执行此操作,该工具允许用户提供有关机器学习模型所做的预测的反馈。在其他情况下,则需要手动标记新数据。
不要忘记为正在进行的模型培训分配资源
模型必须不断地训练,否则随着时间的推移,模型将变得不那么精确,聚集合适的团队,笔记本电脑团队合作。
在应用机器学习中
您的模型将影响人们的工作和生活(以及公司的底线),这就是为什么一个孤立的数据科学家团队很少执行成功的机器学习策略的原因,仅通过模型即可解决的业务问题非常罕见,大多数问题是多方面的,需要各种各样的技能-数据管道,基础架构,UX,业务风险分析,换句话说机器学习仅在将其整合到业务流程,客户体验或产品中并真正发布后才有用,应用机器学习需要一个跨职能的团队,其中包括来自不同学科和背景的人员,并非所有这些都是技术性的。
主题专家将需要验证训练数据的准确性和模型推论的可靠性
产品经理将需要为机器学习策略建立业务目标和期望的结果,用户研究人员将通过与系统终用户的访谈和反馈,帮助验证模型的性能,道德团队将需要确定机器学习模型可能造成有害危害的敏感区域,成功的AI解决方案的非技术性要素与建立模型所需的纯技术性同样重要,甚至更为重要,应用机器学习还需要除数据科学技能之外的技术支持,软件工程师将必须帮助将模型集成到组织正在使用的其他软件中,数据工程师将需要建立在培训和维护期间为模型提供数据的数据基础架构和管道,而且IT团队将需要提供训练,服务机器学习模型所需的计算,网络和存储资源。
即使有了出色的业务策略
真实世界的AI解释了机器学习策略的常见挑战和陷阱,以及产品如何避免重复其他组织的失败,知道要解决的问题是一项挑战,它适用于所有软件工程任务,任何有经验的开发人员都会承认,“做正确的事”不同于“做正确的事”,在应用机器学习中,定义问题在您对技术,数据源和将要使用您的产品的人员的选择中起着至关重要的作用,只有20%的大型公司处于试验阶段的AI才能投入生产,而且许多都无法尽其所能为客户提供服务,在某些情况下这是因为他们试图解决错误的问题,在其他情况下,这是因为它们无法考虑所有对模型的成败至关重要的变量或潜在偏差。
考虑图像分类问题
深度神经网络可以惊人的精度执行此类任务,但是如果要将它们应用于实际应用程序,则对问题的详细定义将确定所需的模型,数据,人才和投资的类型,如果您想要一个可以标记图像档案中文件的神经网络,则可以使用很多预先训练的卷积神经网络和公共数据集开箱即用,您可以在自己的服务器上设置深度学习模型,并通过它运行图像,或者您可以注册基于API的服务,在这种情况下,推断将在服务提供商的服务器中完成。
假设您正在一家大型农业公司工作
并且想要开发一种可以在无人机上运行并且可以检测农作物中杂草的图像分类器,希望这项技术将帮助您的公司转而精确地使用除草剂,以降低成本,浪费和化学药品的负面影响,在这种情况下您将需要一种更专业的方法,您必须考虑对机器学习模型和数据的约束,您需要一个足够轻的神经网络,以在边缘设备的计算资源上运行,而且您将需要一个特殊的带有杂草和非杂草植物标签图像的数据集。
在机器学习中,定义问题还包括确定要解决问题的程度
在图像档案标签的情况下,如果您的机器学习模型将每100张图像中的5张标签错误,那么您应该不会有太大的问题,但是如果要创建癌症检测神经网络,则需要更高的标准,每个遗漏的案件都可能会影响生命。
收集训练数据
机器学习数据图表
应用机器学习的主要挑战之一是收集和企业训练模型所需的数据
这与科学研究相反,在科学研究中通常可以获得训练数据,其目标是创建正确的机器学习模型,在现实世界中创建AI时,用于训练模型的数据比模型本身更为重要,这是学术界代表的典型范例的逆转,在该范例中,数据科学博士将大部分精力和精力用于创建新模型,但是用于在学术界训练模型的数据仅用于证明模型的功能,而不能解决实际问题,在现实世界中,可用于训练工作模型的高质量和准确数据很难收集。
在许多应用的机器学习应用程序中
公共数据集对于训练模型没有用,您需要收集自己的数据或从第三方购买它们。两种选择都有其自身的挑战,真实世界AI:负责任的机器学习实用指南,在前面提到的除草剂监视场景中,该组织将需要捕获很多农作物和杂草的图像,为了使机器学习模型可靠地工作,工程师将需要在不同的光照,环境和土壤条件下拍照,收集数据后,他们需要将图像标记为“植物”或“杂草”,数据标记需要手动工作,这是一项艰巨的工作,并且已经引起了整个行业的发展,有数十个平台和公司为AI应用程序提供数据标记服务。
例如医疗保健和银行业,培训数据将包含敏感信息
在这种情况下,外包标签任务可能很棘手,产品团队将必须小心,不要违反隐私和安全法规,然而在其他应用程序中,数据可能会分散并分散在不同的数据库,服务器和网络中,当组织从各种来源获取数据时,他们还将面临其他挑战,例如数据库架构之间的不一致,约定不匹配,数据丢失,数据过时等等,在这种情况下,机器学习策略的主要挑战之一将是清理数据并将不同的源合并到一个数据湖中,以支持ML模型的训练和维护。
在数据来自不同数据库的情况下
验证数据质量和出处对于机器学习模型的质量也至关重要,在企业中发现分散在不同部门的整个数据库中的数据而没有任何有关它来自何处或如何到达那里的任何文档,这在企业中是非常普遍的,随着数据从收集到数据库的那一刻开始出现,很可能已经以一种有意义的方式对其进行了更改或操纵,如果您对正在使用的数据如何到达那里进行假设,那么终可能会产生无用的模型。
维护机器学习模型
齿轮自动化
机器学习模型是一种预测机器
可以从世界上获得的数据中查找模式,并根据当前的观察结果预测未来的结果,随着我们周围世界的变化,数据模式也会发生变化,并且根据过去的数据训练的模型会逐渐衰减,AI并不是一种“设置即忘了”的系统,无需人工干预就能不断创造出结果,它需要不断的维护,管理和过程校正,才能继续提供有意义的期望输出,一个明显的例子是covid-19大流行,该大流行引起了全球范围内的封锁,并改变了许多生活习惯,从而破坏了许多机器学习模型,例如随着购物从实体店转变为在线商店,用于供应链管理和销售预测的机器学习模型已过时,需要重新培训。
任何成功的机器学习策略的关键部分是确保您具有基础结构和流程来收集连续的新数据流并更新模型
如果您使用的是监督式机器学习模型,则还必须弄清楚如何标记新数据,在某些情况下,您可以通过提供工具来执行此操作,该工具允许用户提供有关机器学习模型所做的预测的反馈。在其他情况下,则需要手动标记新数据。
不要忘记为正在进行的模型培训分配资源
模型必须不断地训练,否则随着时间的推移,模型将变得不那么精确,聚集合适的团队,笔记本电脑团队合作。
在应用机器学习中
您的模型将影响人们的工作和生活(以及公司的底线),这就是为什么一个孤立的数据科学家团队很少执行成功的机器学习策略的原因,仅通过模型即可解决的业务问题非常罕见,大多数问题是多方面的,需要各种各样的技能-数据管道,基础架构,UX,业务风险分析,换句话说机器学习仅在将其整合到业务流程,客户体验或产品中并真正发布后才有用,应用机器学习需要一个跨职能的团队,其中包括来自不同学科和背景的人员,并非所有这些都是技术性的。
主题专家将需要验证训练数据的准确性和模型推论的可靠性
产品经理将需要为机器学习策略建立业务目标和期望的结果,用户研究人员将通过与系统终用户的访谈和反馈,帮助验证模型的性能,道德团队将需要确定机器学习模型可能造成有害危害的敏感区域,成功的AI解决方案的非技术性要素与建立模型所需的纯技术性同样重要,甚至更为重要,应用机器学习还需要除数据科学技能之外的技术支持,软件工程师将必须帮助将模型集成到组织正在使用的其他软件中,数据工程师将需要建立在培训和维护期间为模型提供数据的数据基础架构和管道,而且IT团队将需要提供训练,服务机器学习模型所需的计算,网络和存储资源。
即使有了出色的业务策略
明确表达的特定问题和强大的团队,如果没有访问摄取,保存,移动每个数据集所需的数据,工具和基础架构,也无法取得成功,并在适当的位置进行操作,制定正确的机器学习策略,这些只是您在应用机器学习中将面临的一些关键挑战,您仍然需要更多元素来使您的机器学习策略有效,构建与购买”困境,应对生产挑战,安全和隐私问题以及应用机器学习的道德挑战,他们提供了许多真实的示例,这些示例显示了如何正确地做事并避免破坏机器学习的主动性。
商业联合会数据分析专业委员会