企业做CPDA数据分析时如何确保AI的数据质量
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-05-19
使用劣质数据来训练您的机器学习系统就像通过研究几何来准备物理测试
您会学到一些东西,但是您的努力可能无法帮助您正确回答测试问题,如果您为自动驾驶汽车训练计算机视觉系统,并把人行道上的图像误贴为街道,结果可能是灾难性的,为了开发准确的算法,您将需要高质量的训练数据,为了生成高质量的数据,您将需要熟练的注释者来仔细标记计划与算法一起使用的信息。
当我们谈论质量训练数据时,我们同时在谈论那些标签的准确性和一致性
准确性是标签与事实的接近程度。一致性是指各种培训项目上的多个注释彼此一致的程度。
以下是组织可以实施的一些质量控制,以实现准确和一致的数据注释过程,标准质量保证方法提供了基准
通常创建高质量培训数据集的组织使用三种标准方法来确保准确性和一致性:黄金集,共识和审计,金牌组或基准可以通过将注释(或注解符)与“金牌组”或经过审查的示例进行比较来衡量准确性。这有助于衡量一组或一组注释与基准的匹配程度,共识或重叠测量组之间的一致性和一致性,并通过将同意的数据批注的总和除以批注的总数来实现。对于具有相对客观等级的项目,这是常见的质量控制方法。目标是就每个项目达成共识决定。重叠判断之间的任何分歧通常由审核员进行仲裁。
审核 通过让专家审核标签(包括抽查或审核所有标签)来衡量准确性和一致性
对于无法达成共识判断的项目,此方法非常重要-诸如转录之类的任务,审核员将审核并重新处理内容,直到达到水平或准确性为止,详细的控制可以提供深入的质量评估,这些基线质量测量为监视数据注释的质量奠定了坚实的基础,但是没有两个AI项目是相同的,组织应该建立更适合于特定计划的质量评估。负责AI计划的组织负责人可以通过考虑以下过程来建立深入的质量控制:
多种质量度量指标:利用前面讨论的多种质量度量方法
每周数据深入分析:成立 项目管理团队每周调查一次数据,并制定长期的生产率和质量目标。例如,如果您需要在92%的时间内准确的数据,则将延伸目标设置为95%,并尝试确保注释过程超出初始目标,管理测试和审计: 要建立项目经理的质量保证技能,请他们完成注释工作和质量审计,以使他们对注释过程有手的经验。这使管理团队可以从360度角度查看项目,并充分了解注释者的流程。
高质量的培训数据有助于减轻偏差
高质量的训练数据可确保算法更准确,还可帮助减轻许多AI项目中的潜在偏差,偏见可能表现为针对不同性别,口音或种族的声音或面部识别性能不均,在数据注释过程中消除偏见是向培训数据集中注入质量的另一种方法,为了避免在项目级别出现偏见,组织应积极地在定义目标,路线图,指标和算法的数据团队中建立多样性。雇用一支多样化的数据人才团队说起来容易做起来难,但是,如果您的团队的组成不能代表算法所代表的总体,那么终产品可能只会为一部分人服务或吸引他们,或歧视人口的某些子集。
同样重要的是还要考虑数据级别的偏差以下是有助于您减轻训练数据偏见的注意事项:
1、当内部团队成员标记数据时,他们总是会添加一些偏见,因为他们对系统应该得出的结论抱有期望。如果您决定使用内部团队,请咨询外部资源以帮助建立客观的注释环境。
2、查找或创建代表性的训练数据集。数量总是有帮助的,尤其是当您使用内部系统的数据时。尝试查找全面的数据,并尝试使用不同的数据集,指标和细分,以确保您了解基础知识。
3、如果您要对数据进行工程设计或注释,请谨慎设计注释器的指令和任务,以免一开始就产生偏差。批注者必须有足够的指令来正确执行任务,但又不知道数据将用于什么目的,这会影响行为,这一点很重要。
4、在质量保证过程中,检查数据中是否存在隐含偏差。
产品投入使用后,使用其生成的数据监控性能,以确定其是否为所有用户提供了公平的机会和成果。
高质量数据是AI的基石
成功的AI计划需要高质量的培训数据。而且,尽管质量保证流程众多,但它们是您AI计划的重要组成部分。高质量的培训数据不仅会激发现实世界中可以使用的算法,还有助于减轻手动数据注释中固有的一些偏见。在开始启动AI计划之前,请开发数据质量保证实践,以实现的投资回报。