var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

自我修复:机器学习和数据摄取

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-11-27

尽管对分析的需求变得越来越迫切,但是可用的数据分析员技能仍然短缺
越来越多的公司要求更多的分析,并且数据预处理正迅速成为瓶颈,在大数据采用的早期阶段,使用数据可视化和脚本编写来帮助匆忙解决棘手的标准化问题,从而解决了数据争用问题,随着分析和AI变得越来越重要,数据争夺本身正在朝着更高的自动化和更复杂的例程发展,古老的格言“医生,自愈”现在与机器学习(ML)有关,在机器学习中,越来越多地关注数据准备正在帮助解决ML初产生的问题。

使分析变得更加复杂的所有因素也在数据准备中产生了问题
过去,相对简单的ETL策略已让位于一系列预处理,清理和整理任务,以标准化数据,确保其准确性和可比性,并将其输入可能进行分析的仓库或存储库中,庞大的数据集以及数据输入和收集的差异阻碍了结构化和半结构化数据的准备,而且这些庞大的数据量可能包含实时和近实时数据,而即时分析的需求可能使得无法进行手动预处理,此外对于管理非结构化数据并将其准备用于AI或机器学习技术的需求也在不断增长。

一个问题是缺乏完全自动化的数据集成解决方案
有些事情(例如处理格式变化)很容易实现自动化,但是其他一些事情可能涉及语言或解释上的细微差别,这超出了当前AI的范围,在处理各种类型的数据可能被编码和输入的所有方式时,的解决方案是使显而易见的信息自动化,分析异常,并将这些异常提交给能够应用现实世界知识来找到解决方案的人类专家,这类似于涉及AI的许多问题,任务的70%到90%可以自动处理,但标记异常以进行进一步分析也很重要,通常由人工分析人员进行。

多家供应商从事ML预处理
从早期开始就参与数据处理,现在正在将ML纳入其解决方案中,对问题应用各种AI和分析技术,随着此阶段的分析与其他分析任务越来越集成,将ML和AI集成到数据预处理中的过程可能会继续逐步进行,并且在很大程度上是未公开的。

过去相对简单的线性数据摄取和处理模型已被更复杂的策略所取代

数据摄取本身需要从新兴的分析和AI技术中受益,这是如何将当今的认知系统构建为混合人机解决方案中多个处理级别的流的另一个示例,随着我们进一步进入大数据分析和AI时代,创建可用数据集的能力变得越来越重要,并且将需要大量的AI和分析资源。



Prev article

利用分析助力数字业务时刻

Next article

人工智能始于数据,要实现人工智能的力量请从数据开始

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务