400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

自动化机器学习与数据科学团队的未来怎样?

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-11-16

ML是工具和平台的统称
这些工具和平台可自动执行选择正确模型并优化其超参数的步骤,以在给定的数据集下生成模型,这个空间中还有云平台,提供了用于自动化机器学习的整个生态系统,包括机器学习,ML的目标是缩短实验和反复试验的周期。它循环浏览大量模型和用于配置这些模型的超参数,以确定可用于所提供数据的模型,对于任何人类数据科学家而言,这都是一项繁琐且耗时的活动,即使他或她的技能很高,ML平台可以更快,更详尽地执行此重复性任务,以更快,更有效地找到解决方案。

ML工具的价值不是取代数据科学家
而是减轻他们的日常工作并简化他们的流程,以使他们和他们的团队能够将精力和精力集中在需要更高层次思考和创造力的流程的其他方面,随着优先级的变化,对于数据科学家来说,重要的是要了解整个生命周期,以便他们可以将精力转移到更高价值的任务上,并磨练他们的技能以进一步为企业提升价值,商业案例开发,任何机器学习计划的步都是确定企业必须解决的问题,在问题识别期间,数据科学团队评估什么定义了企业的成功,并确定了机器学习的应用可以在哪些方面帮助企业实现其业务目标。

在这一步骤中,至关重要的是,数据科学团队必须了解业务以及整个业务
团队成员必须了解业务流程,在现有和潜在市场中拥有专业知识,了解其业务运营所在的竞争和监管环境,并能够驾驭数据科学计划所处的政治生态系统,这类业务敏锐度并不总是属于传统数据科学家的强项(传统上,他们的工作重点一直是其角色的数学和计算机编程方面),但未来必须如此。这是数据科学团队扩大其团队组成的机会,更多的技术数据科学家可以在机器学习的内在价值方面指导具有更多业务专长的个人。传统的技术数据科学团队与精通技术的业务合作伙伴一起可以提高他们对业务的拓展(并为业务增值)。

数据采集机器学习凭借其摄取和使用高质量数据的能力而生与死
输入数据的质量越低,模型的质量越低ML此要求同样有效,ML有助于加速过程,但是它可以使用劣质数据快速生成劣质模型,就像使用高质量数据生成优质模型一样快,数据科学团队的作用是在组织内外获取高质量的数据源,数据采购还包括与其他部门进行有效的谈判,以说服他们共享其信息资产,以改善企业它包括查找和与第三方供应商进行谈判,这些供应商拥有可增强模型的宝贵数据。

如果无法在组织内部或第三方广泛获得数据
则数据科学团队通常必须寻求诸如Web抓取甚至建立数据采集过程等技术来捕获所需数据,获取正确的数据可以包括操作来自上游源(例如物联网(IoT))的数据管道,以生成模型开发所需的数据,下一步是为输入数据提供结构,使用正确构造的源数据,ML将能够有效地创建模型并优化其超参数。输入数据操作的过程通常称为数据处理或特征工程,构造数据包括将数值属性转换为分类属性,将属性分解为更有限的分量,从其他属性派生属性,清理属性以及对属性进行归一化。特征工程通常既是一门艺术,又是一门科学,它需要数据科学家警惕地整理数据,以使其可被模型使用,并以可重复的方式进行操作,并为每个数据属性提供沿袭其来源。

随着深度学习的到来
关于要素工程是否也变得无关紧要并且将来是否适合自动化的问题,已经有许多讨论,尽管许多公司已经开始在深度学习中显示出令人瞩目的成果,但如今的利基市场已经进入了认知领域,例如图像识别,机器翻译和自然语言处理,正是在这些领域中,原始输入的数量很多,每个变量本身没有什么意义,深度学习的应用程序也在这里可以基于大量数据点提取特征,在其他业务领域,数据科学团队管理功能仍然是非常有价值的数据准备步骤,即使公司使用深度学习方法,他们也经常将这些自动识别的功能与人类策划的功能结合起来,以在模型开发中产生结果。

模型评估和业务影响评估
一旦ML有效地运行了数千个(或数万个)排列以识别适合所提供数据的模型,则数据科学团队评估结果并验证其将推动预期业务发展仍然很重要案件,高度调整的模型仍然可能无法实现目标,团队需要评估此目的是否合适,一旦将模型部署到生产中,数据科学团队就必须对其进行监控,团队需要确保该模型在实际数据和培训数据上都能表现良好,并且要通过应用模型来实现业务目标,模型评估的这个过程需要与企业紧密合作,以识别具有组织价值的指标,数据科学团队需要在与业务同行产生共鸣的方面进行交流。

数据科学团队的未来

随着ML成为行业中越来越重要的一部分,它减轻了数据科学团队的负担,不必执行重复而繁琐的模型选择和超参数优化过程,随着这种演变的发生,数据科学团队将继续在组织中发挥至关重要的作用,但是他们必须确定数据科学生命周期中哪些其他过程需要关注并转移精力,这种转变也是数据科学家评估其技能并确定他们是否具有增强这些其他流程的必要能力的机会,因为他们以前的需求任务已被自动化。

 客服热线:400-050-6600

商业联合会数据分析专业委员会




Prev article

数据分析师赋予所有人自信的决策权

Next article

怎样摆脱机器学习遇到的数据困境?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务