人工智能采用新手?不要让数据成为您的致命弱点
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-04-06
人工智能和自动化的价值仅与驱动其算法的基础数据集一样好
AI的复杂性意味着通常很难理解为什么以及如何解释数据,充其量有缺陷的数据将阻碍以人工智能为基础的程序的成功,将您的消息发送给不感兴趣的消费者,或者无法保证销售量或节省成本,在坏的情况下,结果可能更令人怀疑,可能会产生偏见,并破坏预期的目标和结果。
COVID-19大流行已大大改变了消费者的行为
因此也改变了与之相关的数据,实际上在COVID-19期间在销售和市场营销中采用AI的公司中,有32%的高管表示他们的机器学习模型失败,因为他们依赖于大流行之前收集的数据,因此问题就变成了,我如何学习构建新的训练集和模型的当前现实是什么?答案在于投入必要的周期来寻找和评估训练算法所需的数据,这涉及考虑以下四个关键要素。
透明度-数据来源如何?它的属性是什么?您可以根据需要对用于分析的数据进行细分吗?
精度-如何验证/确认数据包含在数据集中?数据集包含哪些元数据?
大小-数据集有多大?它的大小足以准确地代表人口和您的客户吗?
及时性-收集数据的程度以及刷新的频率-添加新数据点和删除过时的数据?
数据购买应该是团队的努力
大数据决策不是仓促的决定
以经验全面的数据评估可能需要一个月或更长时间,您理想的数据评估团队不仅应包括企业所有者和产品经理,还应包括数据工程师和分析师,通过花费额外的时间和资源来确保正确的数据支撑您的AI工作,您可以更好地实现您的自动化愿景,程度地减少出现的问题,并避免完全重做或废弃项目。
密切关注数据质量
数据的整体质量与业务成功之间有着直接的关联,没有什么比采购数据集和开始建立训练算法来使原始数据中固有的未被发现的问题存在,然后必须对其进行修复更糟糕的了,数据质量可能会有所不同-这就是为什么在评估过程中拥有多个利益相关者的观点很重要的原因,确保您正在采购的数据中包含适当的元数据-这就是使它变得更加强大的原因,还请注意您要采购的数据的精度,尤其是其位置数据时,您的数据提供商应竭尽全力彻底分析,证实和分类其数据,这样可以避免获取不准确甚至是欺诈的数据(这是一个太常见的问题),的情况是,作为买方的您可以看到数据集中每个信号的来源和特定属性。
这就是大数据的现实
AI的复杂性意味着通常很难理解为什么以及如何解释数据,充其量有缺陷的数据将阻碍以人工智能为基础的程序的成功,将您的消息发送给不感兴趣的消费者,或者无法保证销售量或节省成本,在坏的情况下,结果可能更令人怀疑,可能会产生偏见,并破坏预期的目标和结果。
COVID-19大流行已大大改变了消费者的行为
因此也改变了与之相关的数据,实际上在COVID-19期间在销售和市场营销中采用AI的公司中,有32%的高管表示他们的机器学习模型失败,因为他们依赖于大流行之前收集的数据,因此问题就变成了,我如何学习构建新的训练集和模型的当前现实是什么?答案在于投入必要的周期来寻找和评估训练算法所需的数据,这涉及考虑以下四个关键要素。
透明度-数据来源如何?它的属性是什么?您可以根据需要对用于分析的数据进行细分吗?
精度-如何验证/确认数据包含在数据集中?数据集包含哪些元数据?
大小-数据集有多大?它的大小足以准确地代表人口和您的客户吗?
及时性-收集数据的程度以及刷新的频率-添加新数据点和删除过时的数据?
数据购买应该是团队的努力
大数据决策不是仓促的决定
以经验全面的数据评估可能需要一个月或更长时间,您理想的数据评估团队不仅应包括企业所有者和产品经理,还应包括数据工程师和分析师,通过花费额外的时间和资源来确保正确的数据支撑您的AI工作,您可以更好地实现您的自动化愿景,程度地减少出现的问题,并避免完全重做或废弃项目。
密切关注数据质量
数据的整体质量与业务成功之间有着直接的关联,没有什么比采购数据集和开始建立训练算法来使原始数据中固有的未被发现的问题存在,然后必须对其进行修复更糟糕的了,数据质量可能会有所不同-这就是为什么在评估过程中拥有多个利益相关者的观点很重要的原因,确保您正在采购的数据中包含适当的元数据-这就是使它变得更加强大的原因,还请注意您要采购的数据的精度,尤其是其位置数据时,您的数据提供商应竭尽全力彻底分析,证实和分类其数据,这样可以避免获取不准确甚至是欺诈的数据(这是一个太常见的问题),的情况是,作为买方的您可以看到数据集中每个信号的来源和特定属性。
这就是大数据的现实
没有数据源是的,尽管尽了的努力,诸如机器学习和AI之类的新技术也必将出现问题,通过了解如何收集,清理,验证和组装您的基础数据,企业可以在优化内部资源,改善客户体验并避免一路代价高昂的错误的同时获得价值,人工智能可以成为后COVID经济中的武器……只要它运行在数据上即可。