400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

数据分析师为了提升数据质量需要怎么来做?

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-08-26

数据质量计划首先为数据集创建KPI

为系统中的数据质量设置准则。这样可以确保所有数据仅在遵循一组预定义的规则后才进入您的系统。此过程从概要分析当前数据源和入口点开始,并以定义系统中的数据工作流(包括将来的任何新数据源)为结束。

 

数据标准化这是一个定性步骤,首先要问是否有正确的数据输入我的系统?

这一问题。如果不重要的数据或不正确的数据未经清理就进入了系统,那么当时间可能是获取洞察力的关键因素时,这将导致日后的额外努力,存储原始数据很重要,可能会取决于将来的用例或法律/合规性需求,但是将其存储在存档中,对于日常数据需求,应在数据存储中随时提供一层准备好的数据。

 

资料验证验证数据的准确性对于数据团队成功交付业务成果至关重要

从高层次上讲,这涉及到验证数据源和验证数据点的准确性,如果您每周从第三方提供商处获取转储,则需要评估该数据是否可靠,他们如何收集数据,他们将采取哪些步骤来清理数据以及如何管理对数据的访问。

 

具有取决于数据集的自定义规则以验证数据点是否有意义至关重要

如果“年龄”列中的值为负,则很可能是不正确的。如果理由是“年龄列中没有负值代表估计的死亡年份与今天之间的差额,那么也许该列不应称为年龄。”

 

数据卫生这涉及数据集的端到端卫生,包括以下内容的修复:

1、架构不一致

2、无关的文字

3、缺失数据

4、冗余信息

5、上下文错误

6、垃圾价值

是的,但是这些脚本可以在很大程度上重复使用/自动化,尽管由于每个数据集都是的架构,所以您必须手动编写代码来清理每个数据集,但始终有自动化的余地。

 

丰富数据纯粹主义者会认为这是ETL步骤的一部分

或者它“取决于xyz ..”,但是通过附加或聚合字段以创建更简洁的模式来丰富数据,这是很有价值的。将姓氏附加到名字上,并具有一个名称列,用例取决于您计划如何使用数据。

 

自动化上面提出的所有观点都需要思想,计划和编码

在出现某种模式时,将这些过程自动化到系统中很重要,可以将其视为数据的CI / CD管道,所有自动化都已集成,经过测试,构建不过是满足其KPI的质量和一致性的数据集。

 

总结思想归根结底,为企业带来可见价值的任务是机器学习部分

这就是团队要花大量开发时间进行数据清理和准备工作的原因,但是有一点很重要,那就是通过具有围绕数据清理和准备工作的系统或过程来对数据科学过程进行严格控制,一旦设计并自动化了这些系统,就可以使数据从不干净转移到干净,永远记住,一次自动执行比手动执行太多次要好得多,到达那里的过程将是艰巨而痛苦的,但它将为每个人带来甜美的果实。

  客服热线:400-050-6600

商业联合会数据分析专业委员会

 

Prev article

为什么开源是未来?

Next article

企业在分销转型中的三大“巨石”是什么?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务