var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

为您的企业做好机器学习准备的四个步骤

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-11-02

这意味着解决准备ML的四个关键步骤:
1、采购数据
2、建立受信任的区域或“单一真相”(SSOT)
3、建立建模环境
4、供应模型输出或对下游应用程序的见解

步骤1:获取数据
数据来源包括调查可访问的数据类型,以获取算法输入以及利用这些资源所需的过程和技术。数据源的示例包括核心交易,客户提供的信息,外部数据库,市场研究数据,社交媒体和网站流量。

步骤2:建立信任区域
一旦获得数据,就必须通过SSOT(将数据组织到一个一致的位置)进行管理。在处理数据时,证明数据的有效性和质量很重要。在将数据用于ML之前,必须对其进行汇总,协调和验证。受信任区域的关键属性包括:

1、从多个渠道汇总的中央数据存储库。

2、明确定义和记录的数据元素和数据沿袭。

3、假设文档。例如,如果来自先前管理系统的医院数据与当前系统的元素冲突,则可能以近的数据输入为准。该假设必须记录在案。

4、解决意外异常的协议。考虑前面的示例,并假设患者在两个系统中的相同日期数据条目存在冲突。堆栈应捕获诸如商业智能报告之类的异常,并且可以将数据手动输入到受信任区域中。

5、匹配并协调整个系统中的计数的每日报告。

6、垂直和水平扩展的体系结构。

7、容纳受信任区域的数据存储区应该具有高可用性,并且能够应对故障。近,更多的数据仓库托管在云平台上。云的好处包括高可用性,成本效益以及水平和垂直扩展。另一个趋势是NoSQL数据库(例如MongoDB)的采用不断增加,与传统的关系数据库相比,NoSQL数据库提供更大的灵活性和更好的性能来存储非结构化数据。

与所有数字事物一样,数据的监管和安全至关重要
如今数据更加私密,隐私和安全法规也更加复杂,数据治理团队应该是任何ML实施的一部分,为了确保合规性,必须具有跟踪数据来源的数据沿袭,收集和保存的数据必须受到保护。安全和风险管理团队必须参与进来,以启动和监视实践并制定安全违规响应计划,对于小型机构而言,对外包援助的投资是值得的,如果利用云供应商,则他们必须在合同上同意数据安全是他们的责任,从本地到云之间的数据传输必须是范围的一部分,并且应仔细设计以解决安全风险,数据加密在传输到云之前非常有价值,即使传输是通过安全的虚拟专用网络进行的。

步骤3:建立ML建模环境
然后,可以从为实施ML算法而创建的建模环境中获取来自SSOT的精选数据。建模环境有助于创建模型,这些模型以通过模型验证和审核要求的方式生成有意义的见解。它包含三个组件:建模基础架构,开发工具和DevOps。ML建模环境的不同选项包括:

1、准备使用的服务:这些是经过预训练的通用模型,打包为准备使用的服务,例如文本到语音,语音到文本,OCR等。

2、自动化ML:这些应用程序具有图形用户界面(GUI)以及执行ML的固定步骤或工作流。它们允许主题专家/业务用户以很少的编程知识来使用预煮的ML管道。他们在很多但不是全部用例中都做得不错。

3、ML :这些是预先构建的ML建模环境,具有可配置的编程工具和内置的DevOps。程序员只需要配置工具并开始构建模型。

4、定制/内部构建的ML建模环境:建模环境的所有组件,编程工具和DevOps工具均由机构收集,创建,配置和维护。

当前的趋势是将建模平台从内部实施的 Hadoop迁移到云
基于Hadoop的堆栈可能具有很高的前期成本,并且维护起来很复杂,迁移到云有很多好处,包括灵活性和少的前期资本投资,随着存储和计算需求的变化,它可以无缝适应。将其视为“随用随付”,大多数主要的云提供商还提供ML即用型服务和ML工作台,这些服务和设置可在设置要求的情况下使用。

应当建立ML建模环境以促进模型验证并解决相关的挑战
模型必须经过验证是否有偏差,必须可以解释,并且必须记录参数和方法的选择,必须详细说明文档,以便第三方可以在不提供源代码的情况下重新创建模型,因此标准化模型开发和验证过程很重要。

生产之前通常需要评估模型风险
监管准则要求决策者了解构建这些模型的意图,所做的假设和限制,应该避免使用超出其初意图范围的模型,尽管ML擅长于对复杂的非线性场景进行建模,但它不如传统模型那么透明,从而使ML模型验证具有挑战性,例如在当今医院被冠状病毒淹没的情况下,基于ML的模型可以帮助基于临床数据的分类设备,但是在没有证明这种模型不会不合理地偏向某个特定人群的情况下,无法实际使用它们。

所选模型的开发和构造必须具有概念上的依据
重要的是记录为什么选择模型,其背后的数学以及特征选择过程,特征的来源和数据完整性也是必不可少的,使用可以更轻松地完成,使用时应格外小心,因为它提供了必须经过预煮的模型,以确保概念上的正确性,应仔细评估模型验证。

步骤4:从ML置备见解
见解的交付可分为实时交付或批量交付。实时洞察需要在短时间内或接近实时(例如检测欺诈性交易)进行处理,生成和传递。批处理按组处理和生成,示例包括预测客户行为的模型,设计和托管用于实时模型的计算层的注意事项包括请求频率和负载,如果这是不可预测的或高度可变的,建议在云中托管计算层,创建专用于此计算层的基于Web服务的API层也是明智的,实时模型应要求注册到API层,这应使应用程序能够检索有关如何构造API请求和预期的输出结构的信息。

机器学习模型与传统模型的不同之处在于它们可以被连续训练
应该创建一个培训反馈循环,并应保存传递给模型的输入,结果输出以及这些输出是否有意义。可视分析还可以用于以有意义的方式呈现从建模平台生成的见解。

利用数据的好处

通过了解ML技术堆栈的实现,公司可以利用数据的优势并生成可以改变其业务的编程,遵循本文介绍的四个操作步骤并实施支持策略将提高效率,早期采用者更有机会看到成功。



Prev article

为机器学习准备数据

Next article

自然语言处理正在帮助企业分析其数据

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务