不要忘记机器学习过程的后端
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-12-09
并将大量的精力和资源投入到分析生命周期的模型开发阶段,同时他们没有考虑将模型投入运营所需的所有细节。这可能导致项目失败或增加部署模型所需的时间。
至少要考虑四个步骤:
1、模型管理
正如对软件进行版本控制和注册一样,机器学习模型也应该如此,在模型构建阶段以及进行更改后立即部署新版本的情况下,对模型进行版本控制很重要,这意味着要注册和版本化模型并捕获有关模型的元数据-包括何时建立模型,谁建立模型以及用于训练模型的数据。这样,组织可以跟踪投入生产的模型,并知道每个模型的运行版本。
2、模型部署
一旦构建并验证了模型,就可以将其部署到生产中,这涉及导出模型以及开发管道以对新数据进行评分,有多种模型部署方法,一些企业将重写模型,使其适合生产系统或应用程序。通常不建议这样做,因为它会在过程中引入许多错误,其他人则使用API导出模型,越来越多的人开始将它们出口到集装箱中,无论使用哪种方法,重要的是能够将数据馈送到生产中的模型,这将需要收集数据,对其进行预处理并重新计算需要输入到模型中的特征。
3、模型监控
模型在某些时间段(几个月,几周或几天(或更短的时间,取决于使用情况))中是好的,之后模型可能会过时,模型降级可能是一个严重的问题,因此组织需要监视生产中的模型以查看它们是否在漂移。
4、重新训练模型
将模型投入生产后,模型的假设可能会更改,例如在COVID生产前投入生产的模型中,用作输入模型的客户行为假设肯定已经改变,然后对分析进行操作的一步是,一旦模型投入生产并且组织正在监视其绩效,便要对其进行重新培训。
我们通常会看到组织可能生产三到五个模型
这意味着他们目前正在摆脱手动执行上述许多步骤的麻烦,例如他们可能使用某种文件系统来跟踪模型,他们可以手动监视他们的模型,但是这不是可扩展的解决方案,他们的数据科学家可能会承担这项工作,同样这是不可扩展的,将模型部署到生产中终将需要DataOps团队来完成这项工作,它还将需要工具和自动化来部署和管理生产中的模型。某些早期的商业供应商提供了“后端”功能,开源社区也在尝试提供此类工具,但它们仍在追赶。
建议企业在机器学习扎根时尽早考虑模型管理,以便他们可以适当地部署适当的人员,流程和技术,以便在开始扩展时做好准备。
CPDA企业内训
https://www.cpda.cn/trainning/
CPDA项目数据分析师为什么要更名?
https://www.chinacpda.com/question/4504.html
海南智企数据分析师事务所
https://www.chinacpda.com/shiwusuo/14202.html
王兴海老师 高级经济师
https://www.chinacpda.com/shizi/9433.html
用数据改变人生,获得CPDA证书仅是一个开始
https://www.chinacpda.com/shouquanzhongxin/14854.html
大数据专业就业前景及就业方向如何?
https://www.chinacpda.com/wenti/11706.html
CPDA数据分析师学习方式和课程体系
https://www.chinacpda.com/xuexiarea/18089.html
数据分析师的职业进阶之路
https://www.chinacpda.com/zixun/4048.html
《大数据人才培养体系标准》正式发布!
https://www.chinacpda.com/dongtai/9669.html
CPDA数据说给你带来精彩的视频案例讲解
https://www.chinacpda.com/videocenter/
数据分析师考核
https://www.chinacpda.com/examine/
数据分析师职业规划
https://www.chinacpda.com/career/
CPDA数据分析师授权中心
https://www.chinacpda.com/train/
数据分析相关动态
https://www.chinacpda.com/data/?page=12
数据分析师为您解答更多问题
数据分析案例展示
https://www.chinacpda.com/case/
查找您周边省份授权培训中心:
https://www.chinacpda.com/train/
2020年CPDA数据分析师线上报名:
https://www.chinacpda.com/baoming.php
CPDA数据分析明星导师:
https://www.chinacpda.com/startutor/
CPDA数据分析师培训优秀学员:
https://www.chinacpda.com/student/
免费客服热线:400-050-6600
商业联合会数据分析专业委员会