为什么机器学习项目会失败,以及如何确保它们不会失败?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-06-30
被金融机构用于快速检测欺诈活动
使医疗保健从业者能够更有效地诊断疾病和开出治疗处方
帮助制造商监控设备,以便在中断运营之前解决问题
允许流媒体服务识别有风险的客户在别处开展业务,并帮助确定可以采取哪些措施来留住他们
随着数据量的增加、低成本的数据存储以及更便宜、更强大的数据处理,机器学习的潜在应用将呈指数级增长。
为什么这么多公司对加入机器学习的潮流犹豫不决——为什么那些开始这些项目的公司的成功率如此之低?
毕竟多达 85% 的机器学习项目终未能兑现其对业务的预期承诺,更重要的是,公司可以做些什么来确保更高的成功率,以便他们能够利用机器学习的前景?
机器学习是不同的
为了增加机器学习项目成功的机会,步是了解这些项目与典型的应用程序和软件开发项目不同,涉及不同的流程、术语、工作流程和工具,也有不同的人员配备要求。其中重要的是数据科学家,他们在定义成功标准、终部署和机器学习模型的持续监控方面尤为重要,数据工程师、商业智能专家、DevOps 和应用程序开发人员也发挥着关键作用。很少有组织拥有填补所有这些职位的内部资源,他们的选择是:雇用他们,这并不总是那么容易,因为机器学习仍然是一个相对较新的领域,经验丰富的专业人员很少,或者外包。
即使组织确实涵盖了人员配备
也很难促进不同团队之间的协作和沟通,传统的软件和应用程序开发通常与数据科学项目有很大不同,软件开发往往更具可预测性和可衡量性,而数据科学可能需要多次迭代和实验,期望不同,可交付成果不同。
数据数量和质量问题
根据许多研究计划(例如,机器学习系统中的隐藏债务)技术债务存在于许多机器学习项目的共同领域,数据质量、模型质量、特征版本控制、模型监控、数据标记、模型可解释性和公平性,流程自动化、人工干预(审查)就地能力,还有数据数量和质量的问题,机器学习项目使用大型数据集,因为更大的数据集有助于更好的预测,但随着数据规模的增加,挑战也随之增加,数据通常从多个来源合并,这些数据通常不同步,这会造成混乱,此外可能会合并原本不应该合并的数据,从而导致名称相同但含义不同的数据点,错误的数据可能会产生不可操作或缺乏洞察力的结果,或者具有误导性。
缺少标记数据也可能是一个问题
一些团队可能会尝试自己承担标记和注释训练数据的艰巨任务,有些人甚至可能尝试创建自己的标签和注释自动化技术,问题在于大量的时间和专业知识用于标记过程,而不是机器学习模型训练,外包可以节省时间和金钱,但如果标记任务需要特定的领域知识,则效果不佳,在这些情况下,组织还必须投资于正式和标准化的注释者培训,以确保跨数据集的质量和一致性,如果要标记的数据极其复杂,另一种选择是开发自己的数据标记工具,但是这可能需要比机器学习任务本身更多的工程开销。
机器学习项目所需的数据通常位于具有不同安全约束和不同格式的不同地方
结构化、非结构化、视频文件、音频文件、文本和图像,需要数据准备,这个过程包括搜索、清理、转换、组织和收集数据。这是一项乏味的活动,可能需要团队花费多达 80% 的时间将原始数据转换为高质量、可供分析的输出,对于数据标记和数据准备,自动化可以帮助纠正这种情况——但同样需要内部团队通常缺乏的专业知识。
寄予厚望
机器学习项目并不便宜,因此组织为他们制定过于雄心勃勃的目标并不少见,人们通常期望一个项目将彻底改变公司或产品并产生巨大的投资回报,这会产生很大的压力,反过来又会导致对战略和战术的二次猜测,毫不奇怪,这类项目往往会拖延,结果项目团队和管理层都对项目失去了信心和兴趣,预算也用尽了,如果目标不切实际,即使是专业的项目也注定要失败,在其他情况下,机器学习项目启动时业务和项目团队之间的期望、目标和成功标准没有一致,如果没有明确定义的成功指标,就很难确定项目是否成功,需要进行哪些更改,模型是否有效地解决了预期的业务需求,或者是否应该考虑其他选项。
机器学习成功因素
虽然没有确保机器学习项目成功的具体指导方针,但有很多方法可以克服许多可能导致项目失败的问题。他们之中:
了解机器学习的工作原理、它与其他项目类型的区别以及执行项目所需的条件。
具有现实目标、预算和领导支持的适当范围的项目。
运行机器学习项目的资源,包括经验丰富的团队成员——无论是内部还是外包——以及对协作和开放交流的承诺。
大量数据,标记。
收集、存储、标记、清理、快速访问和处理大量数据的能力。
用于机器学习模型和数据监控的高级工具。
人类在任何地点和时间点审查机器学习系统和推理的能力。
用于执行机器学习算法的软件工具。
使医疗保健从业者能够更有效地诊断疾病和开出治疗处方
帮助制造商监控设备,以便在中断运营之前解决问题
允许流媒体服务识别有风险的客户在别处开展业务,并帮助确定可以采取哪些措施来留住他们
随着数据量的增加、低成本的数据存储以及更便宜、更强大的数据处理,机器学习的潜在应用将呈指数级增长。
为什么这么多公司对加入机器学习的潮流犹豫不决——为什么那些开始这些项目的公司的成功率如此之低?
毕竟多达 85% 的机器学习项目终未能兑现其对业务的预期承诺,更重要的是,公司可以做些什么来确保更高的成功率,以便他们能够利用机器学习的前景?
机器学习是不同的
为了增加机器学习项目成功的机会,步是了解这些项目与典型的应用程序和软件开发项目不同,涉及不同的流程、术语、工作流程和工具,也有不同的人员配备要求。其中重要的是数据科学家,他们在定义成功标准、终部署和机器学习模型的持续监控方面尤为重要,数据工程师、商业智能专家、DevOps 和应用程序开发人员也发挥着关键作用。很少有组织拥有填补所有这些职位的内部资源,他们的选择是:雇用他们,这并不总是那么容易,因为机器学习仍然是一个相对较新的领域,经验丰富的专业人员很少,或者外包。
即使组织确实涵盖了人员配备
也很难促进不同团队之间的协作和沟通,传统的软件和应用程序开发通常与数据科学项目有很大不同,软件开发往往更具可预测性和可衡量性,而数据科学可能需要多次迭代和实验,期望不同,可交付成果不同。
数据数量和质量问题
根据许多研究计划(例如,机器学习系统中的隐藏债务)技术债务存在于许多机器学习项目的共同领域,数据质量、模型质量、特征版本控制、模型监控、数据标记、模型可解释性和公平性,流程自动化、人工干预(审查)就地能力,还有数据数量和质量的问题,机器学习项目使用大型数据集,因为更大的数据集有助于更好的预测,但随着数据规模的增加,挑战也随之增加,数据通常从多个来源合并,这些数据通常不同步,这会造成混乱,此外可能会合并原本不应该合并的数据,从而导致名称相同但含义不同的数据点,错误的数据可能会产生不可操作或缺乏洞察力的结果,或者具有误导性。
缺少标记数据也可能是一个问题
一些团队可能会尝试自己承担标记和注释训练数据的艰巨任务,有些人甚至可能尝试创建自己的标签和注释自动化技术,问题在于大量的时间和专业知识用于标记过程,而不是机器学习模型训练,外包可以节省时间和金钱,但如果标记任务需要特定的领域知识,则效果不佳,在这些情况下,组织还必须投资于正式和标准化的注释者培训,以确保跨数据集的质量和一致性,如果要标记的数据极其复杂,另一种选择是开发自己的数据标记工具,但是这可能需要比机器学习任务本身更多的工程开销。
机器学习项目所需的数据通常位于具有不同安全约束和不同格式的不同地方
结构化、非结构化、视频文件、音频文件、文本和图像,需要数据准备,这个过程包括搜索、清理、转换、组织和收集数据。这是一项乏味的活动,可能需要团队花费多达 80% 的时间将原始数据转换为高质量、可供分析的输出,对于数据标记和数据准备,自动化可以帮助纠正这种情况——但同样需要内部团队通常缺乏的专业知识。
寄予厚望
机器学习项目并不便宜,因此组织为他们制定过于雄心勃勃的目标并不少见,人们通常期望一个项目将彻底改变公司或产品并产生巨大的投资回报,这会产生很大的压力,反过来又会导致对战略和战术的二次猜测,毫不奇怪,这类项目往往会拖延,结果项目团队和管理层都对项目失去了信心和兴趣,预算也用尽了,如果目标不切实际,即使是专业的项目也注定要失败,在其他情况下,机器学习项目启动时业务和项目团队之间的期望、目标和成功标准没有一致,如果没有明确定义的成功指标,就很难确定项目是否成功,需要进行哪些更改,模型是否有效地解决了预期的业务需求,或者是否应该考虑其他选项。
机器学习成功因素
虽然没有确保机器学习项目成功的具体指导方针,但有很多方法可以克服许多可能导致项目失败的问题。他们之中:
了解机器学习的工作原理、它与其他项目类型的区别以及执行项目所需的条件。
具有现实目标、预算和领导支持的适当范围的项目。
运行机器学习项目的资源,包括经验丰富的团队成员——无论是内部还是外包——以及对协作和开放交流的承诺。
大量数据,标记。
收集、存储、标记、清理、快速访问和处理大量数据的能力。
用于机器学习模型和数据监控的高级工具。
人类在任何地点和时间点审查机器学习系统和推理的能力。
用于执行机器学习算法的软件工具。
遵循这些提示,您的机器学习项目不会在您的组织享受这种现代技术提供的许多好处之前脱轨。
商业联合会数据分析专业委员会