var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

从数据到源数据的机器学习平台

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-06-05

在生产机器学习时我们不仅要关注构建一个准确的模型还要关注一个平台

我们可以在该平台上构建,重建和提供多种机器学习模型,将机器学习模型暴露于实际任务/查询中, 要构建生产级机器学习平台,还需要另一种经常被忽略的数据类型:元数据,它可以包含有关来自我们的机器学习管道的数据集,执行、功能、模型和其他工件的信息,元数据使您能够了解工件的来源(例如,该模型从哪个数据集版本训练而来),因此对于审计跟踪,数据治理以及我们将在本文中讨论的许多其他用例至关重要。

 

什么是机器学习平台?

但是在深入探讨元数据这一主题之前,让我们首先看一下机器学习平台,机器学习框架以及训练机器学习模型。不幸的是,处理机器学习代码本身仅占整个机器学习工作的很小一部分,生产级机器学习平台的体系结构也反映了这一点。

 

元数据挑战

借助这样的端到端机器学习管道,我们现在可以大规模开发,训练和管理模型,但是数据治理和了解已部署模型的来源又如何呢?如何识别从特定数据集衍生的所有模型(可能已被识别为包括不正确的数据)?如何证明高影响力的决策(例如在医疗保健或财务方面)是合理的?数据治理的进一步挑战可能包括:

 

审计跟踪

1、了解人工制品的来源

2、工件的版本历史

3、比较不同工件的性能

4、建立新模型时确定可重复使用的步骤

5、识别生产数据分布与培训数据相比的变化

 

要回答这些问题,除了实际模型外,还需要来自机器学习管道的其他信息:元数据捕获有关来自我们的机器学习管道的数据集,执行,功能,模型和其他工件的信息,例如考虑有关特定训练运行的元数据:

1、哪些功能和模型功能已用作输入?

2、使用了哪些确切的设置和其他输入?

3、培训,测试和验证的性能如何?

4、培训需要什么类型和数量的资源(即,花费了多少)?

5、创建了什么模型,并将其保留在哪里?

 

一些平台组件甚至可能存储自己的元数据,例如,数据存储组件可能会提供有关数据集不同版本的信息。但是,为了能够解决上述挑战,至关重要的是在整个平台上拥有一个统一的视图,而不必手动合并来自不同系统的元数据。面向机器学习平台的通用元数据层可以为这些挑战提供解决方案……

 

通用元数据层

那么,这样一个通用的元数据层有哪些选择呢? 由于该层管理着有价值的数据(即与审计有关的数据),因此数据库系统非常适合,因为它们已经提供了诸如持久性,加密或访问控制之类的数据治理功能。当将不同的数据库系统视为后备存储时,必须在关系数据库系统和NoSQL数据库系统提供的不同数据模型之间进行选择。

 

Prev article

大数据对移动应用开发和业务的影响

Next article

通过流程挖掘发现和改善业务流程

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务