var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

机器学习对数据的要求

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-11-23

机器学习已被用来解决诸如分类和聚类之类的任务
机器学习算法会在开发过程中从所谓的训练数据中学习;它还在部署过程中不断从实际数据中学习,因此该算法可以根据经验改进其模型,机器学习在开发和生产过程中对数据都有强烈的需求,这对组织的数据管理基础结构提出了独特的要求,成功机器学习的数据要求。

1:大型多样的数据集
机器学习算法的开发依赖于大量数据,学习过程从中得出许多实体,关系和簇。为了拓宽和丰富算法所产生的相关性,机器学习需要来自不同来源,不同格式的关于不同业务流程的数据,为了获得全面的学习经验,您应该提供多样化的培训数据(从多个来源集成并涉及多个时间范围内的各种业务实体),以使算法评估更加真实,准确并在生产中取得成功,一旦投入生产,机器学习算法将继续读取大型的各种数据集,以使其模型保持并不断增长。

精明的组织正在为多种类型的分析(不仅仅是机器学习)部署工具,因为每种类型都可以告诉他们一些独特而有价值的东西。这些分析方法中的每一种都需要以某种特定方式准备和呈现的数据,该方式对于所涉及的分析工具或用户实践而言是的,机器学习算法几乎总是针对原始的详细源数据进行优化。因此,数据环境必须为面向发现的分析实践(例如,数据探索,数据挖掘,统计和机器学习)提供大量原始数据。

2:大型,多样化的数据管理基础架构
用于训练机器学习数据的基础结构通常涉及多个数据平台,工具和处理引擎,范围从传统的(关系数据库和列式数据库)到现代的(Hadoop,Spark和云存储),需要多种技术来应对训练数据的极端大小,多种数据结构以及(在某些情况下)多种延迟,机器学习工具显然很重要,但是数据管理基础架构也同样重要。

有很多方法可以为机器学习提供培训和生产数据。这些数据可以来自扩展数据基础架构中的多个平台,但是趋势是将尽可能多的数据整合到一个专为机器学习和其他形式的高级分析而设计的数据湖中。在相关趋势中,出于自动化,优化和经济的考虑,数据湖正朝着弹性云发展。

数据管理基础架构可能非常庞大
它可以包括用于数据仓库,数据湖,数据集成,数据准备,多种形式的分析和大数据的平台和工具,新的数据平台也正在兴起,其中以云,开源引擎,开源库和语言以及自助服务工具为主导,那是一长串的平台,技术和处理引擎但是,这对于想要在分析和智能方面进行运营和竞争的现代组织都是必需的。

当企业已经拥有大数据基础架构时,添加机器学习可以延长基础架构的生命周期和业务价值。


Prev article

云可以成为分析的海量数据源

Next article

大数据对业务过去和未来的影响

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务