var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

在机器学习中一切都与过程有关

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-09-04

对于初学者,必须对数据有扎实的了解

问问自己,我是否掌握数据?数据是否定向性强?我需要使用什么变压器?有标签还是没有标签?从一开始就了解数据一旦运行将如何转换,将有助于推动流程的发展。没有这样的理解,构建达到期望结论的算法的几率将不会对您有利。

 

步骤1:清洁

这是关键的步骤,应花费90%的时间,清洁确实需要确保将多个变量存储在一列中或将多种类型的观测单位存储在同一张表中,但这也与准备好数据进行训练有关,这是您的基础,对事先发生的数据的扎实了解将派上用场,并有助于建立一个准确的模型,以便在实际环境中做出正确的推断,这一步将确保您的数据随着时间的推移而转换和学习。

 

步骤2:建立

清除数据后,下一步是创建适当的模型,以便机器学习算法能够从数据中进行智能推断并考虑传入的新数据,建立模型很容易,并且有工具和可用于使过程自动化的软件。但是,永远不要忘记您正在构建的东西,在任何时候,数据科学家都需要能够解释模型。以您在金融服务或保险等受监管行业工作为例,如果您的银行拒绝贷款申请,则提出申请的个人或组织有权回来询问其理由,答案“模型让我做到了”是不够的,您需要能够解释模型并向提出要求的任何人解释数据遵循的决策过程。

 

第三步:运营和管理

除了清理数据,机器学习过程的第二个重要的阶段是模型的运行。您如何确保该模型适合现有的30-40年的基础架构?这个过程非常困难,因为将两种完全不同的技术分隔开来并非易事。现有软件可以帮助简化此过程,但建议由专业人员来完成此步骤。

 

这就是保持您对奖品的关注

创建模型后,正确的算法就位,持续管理过程将确保成功,如果没有这种维护,该算法将无法进化,无法从变化的数据集中学习,并且容易受到漏洞或缺陷的影响,这些缺陷或缺陷会导致模型运行缓慢,使用过多内存并影响用户体验。

 

Prev article

关于容器安全性的三个被忽略的教训

Next article

元数据和机器学习一起可以帮助自动化数据集成

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务