var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

AI和BI项目陷入了数据准备任务的泥潭

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-11-12

什么是AI / BI数据准备?
数据准备定义为一种迭代和敏捷的过程,用于探索,组合,清理原始数据并将其转换为精选的数据集,以进行数据集成,数据科学,数据发现以及分析/商业智能(BI)用例,数据工作者每周在数据相关活动上花费大量时间,33%的数据用于数据准备,而32%的数据用于分析可悲的是,只有13%的数据科学,在这项研究中,超过30%的所有数据工作者提到的挑战是花费太多时间在数据准备上,数据源的多样性,数据类型的多样性,数据量的巨大性以及数据分析和商业智能的众多用途-所有这些都会导致多个数据源和每个项目的复杂性,因此当今的数据工作者经常使用许多工具来成功实现。

数据准备工具所需的功能
提取并分析数据,通常数据准备工具使用可视环境,使用户可以交互地提取,搜索,采样和准备数据资产,创建和管理数据目录和元数据。工具应该能够创建和搜索元数据以及跟踪数据源,数据转换和针对每个数据源的用户活动,它还应跟踪数据源属性,数据沿袭,关系和API,所有这些功能都可以访问元数据目录,以进行数据审核,分析/ BI,数据科学和其他操作用例,支持基本数据质量和治理功能,工具必须能够与支持数据治理/管理和数据质量标准的其他工具集成。

确定需要哪些数据源才能满足AI和BI要求采取以下三个一般步骤进行数据发现:
1、确定满足所需业务任务所需的数据。
2、确定该数据的潜在内部和外部来源(并包括其所有者)。
3、确保根据要求的频率提供每个信号源。

实践2:确定用于数据分析和准备的工具
有必要将数据源加载到工具中,以便可以分析和处理数据。将数据放入一个可以仔细检查和准备下一步的环境中,这一点很重要。

实践3:针对潜在和选定源数据的配置文件数据
这是至关重要的步骤(但经常打折)。项目必须先分析源数据,然后才能为下游使用做好适当准备。除了简单的外观检查之外,您还需要分析数据,检测异常值并在源中查找空值(以及其他不需要的数据)。

此概要分析的主要目的是确定哪些数据源甚至值得在您的项目中包括在内,尽早取消数据源资格是一个负责任的步骤,可以使您赢得团队其他成员的尊重。

实践4:清理和筛选源数据
根据您对终业务分析目标的了解,尝试使用不同的数据清除策略,以将相关数据转换为可用格式。从一个统计有效的小样本开始,反复尝试不同的数据准备策略,完善记录过滤器并与业务涉众讨论结果,当发现什么是不错的方法时,请花一些时间重新考虑实现业务目标所需的数据子集。在整个数据集上运行数据准备规则将非常耗时,因此请与业务涉众仔细考虑您需要和不需要的实体和属性以及可以安全地过滤出哪些记录。

的想法

从AI / BI项目的开始就进行正确而彻底的数据准备,可以使线下的AI和BI更快,更高效,此处概述的步骤和过程适用于您正在使用的任何技术设置-它们将为您带来更好的结果,请注意并非“一劳永逸”的任务,数据是不断从多个来源生成的,这些来源可能会随着时间而变化,并且业务决策的背景肯定会随着时间而改变,与数据准备解决方案提供商合作是DP基础架构长期功能的重要考虑因素。



Prev article

数据,人工智能和分析技术的未来

Next article

用户对通过对话获取信息更加自在

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务