400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

数据分析师想要建立一个响应式智能数据管道?

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-08-03

即使数据管道越来越流行,许多企业还是低估了正确管理它们的难度

当数据在云中移动时,企业根本没有时间或资源进行内省,因此通常无法捕获数据沿袭和关系,数据管道成为他们的孤岛,同样随着底层系统和架构的变化,许多代数据管道也必须重新构建,没有适当的注意,它们甚至可能破裂,为了确保其数据管道正常工作,我们建议采用者首先确保构建管道的“神经系统”以支持可靠性,变更和面向未来的创新。

 

了解数据管道生命周期

虽然数据管道可以带来广泛的好处,但要使它们正确,则需要有广阔的视野,因此我们建议组织熟悉从设计和部署到运营和治理的整个数据管道生命周期,采用生命周期方法将极大地提高您的数据管道智能化和响应公司需求的机会,并将提供对可信数据的快速访问。在数据管道设计和交付方面拥有丰富的经验,我想分享整个生命周期-成功实施的技巧。

 

设计数据管道至关重要

因此它们可以轻松适应不同的连接协议(数据库,应用程序,API,传感器协议),不同的处理速度(批处理,微批处理,流传输),不同的数据结构(结构化,非结构化)和不同的服务质量(吞吐量,弹性,成本等)例如在设计阶段,可以通过灵活,直观和智能的设计界面来应对这些挑战,包括自动建议,实时预览的数据采样以及设计优化。

 

设计阶段的一些潜在挑战包括如何访问数据,数据的结构以及是否可以信任

这意味着对正在构建的内容进行实时反馈非常重要,否则您将有繁琐的设计-测试-调试-设计方案。框架必须具有正确的检测级别,以便开发人员可以捕获事件并对其采取行动,以实时解决数据结构和内容的变化。

 

现代数据管道还需要支持:

1、数据语义和数据结构发生变化,同时通过无模式方法确保兼容性

2、数据质量验证规则,以检测流经管道的内容中的异常

3、完整的数据沿袭可满足治理要求,例如GDPR

4、数据延迟情况下的乱序实时数据处理

 

部署方式构建数据管道时,重要的是将管道开发为尽可能可移植和敏捷

这将确保您从一开始就对技术进行选择将是持久的-将来不需要完全的重新架构,在部署阶段,挑战可能包括管道的每个部分(数据本地或在边缘)的部署位置,什么运行时(云,大数据,容器)以及如何有效扩展以满足需求,我们经常看到客户从本地开始,然后转到云/混合平台,然后将多云和/或无服务器计算平台与机器学习结合在一起,例如通过像这样的抽象层进行工作,可以确保这种级别的灵活性和可移植性,其中数据管道是从其运行时中抽象出来的。

 

另一个考虑因素是规模

数据管道及其底层基础结构需要能够扩展以处理不断增长的数据量,在当今的云时代,好消息是您可以以负担得起的成本获得所需的可伸缩性,一种有效的技术是使用分布式处理策略,在该策略中本地处理一些数据(例如IoT数据),和/或利用新的无服务器平台,在此平台上,您只需在需要时付费即可。

 

 

操作和优化此阶段在捕获和关联数据以及交付分析和见解作为结果方面提出了一系列挑战

面临的挑战包括如何处理不断变化的数据结构和失败的管道,以及如何随着时间的推移优化和改进数据管道。我们发现AI / ML具有足够的成熟度,在这里很有帮助,在运行时,数据管道需要具有智能响应和改进而不是失败的功能,例如通过无服务器基础架构设置和自动负载平衡,动态调整以适应不断变化的模式以及自动更正,随着数据量的增加而自动扩展,由于技术,业务或运营历史或实时元数据,所有这些都是AI驱动的。

 

AI还用于优化数据管道操作并突出瓶颈

从而减少了检测错误,调查和排除故障的时间,通过在运行时自动检测或适应模式更改,AI使您的管道保持运行状态,机器学习算法和实用程序允许数据从业人员将智能引入其Spark数据管道。

 

管治随着公司集成更多类型的结构化和非结构化数据

需要了解数据沿袭,清理和管理数据。 从一开始就制定周密的  数据治理策略是任何项目的基本做法,有助于确保一致,通用的流程和职责,我们建议用户首先确定需要仔细控制数据的业务驱动因素,并从这项工作中预期收益,该  策略  将成为您数据治理框架的基础,自适应数据管道的常见治理挑战包括遵守(或面临严厉的处罚)法规,例如针对欧洲数据的通用数据隐私法规(GDPR)或《加州消费者隐私法案》(CCPA)。

 

如果构建正确,您的数据管道将保持准确,有弹性且无麻烦-甚至随着时间的推移变得更加智能以与不断变化的环境保持同步-无论是批量处理还是流传输和实时处理;与云或多云混合。

 客服热线:400-050-6600

商业联合会数据分析专业委员会

 

Prev article

数据架构师学习如何设计现代实时数据分析解决方案

Next article

数据访问权是数据隐私合规性和客户信任的致命弱点

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务