var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

微服务和流数据融合

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-09-03

允许开发人员实时处理数据

在许多方面,它们已成为连接数据管道的粘合剂,尽管许多数据是以模块化方式处理的,但并非所有数据都是实时处理的,56%的受访者表示,至少有一半的工作量包含实时组件,当被问及他们实际需要多快的数据时,开发人员说,大多数用例不需要在一秒钟或一分钟内进行访问,31%的人需要具有集成数据流的功能,而32%的人需要具有人工智能和/或机器学习的速度,对于许多其他用例,可以每小时甚至每天进行一次的批处理适合其需求。

 

运营数据湖以提高业务绩效

发生意外事故的主要原因深深植根于读取模式原理。大数据堆栈的个用户是开发人员,他们非常灵活地以任何形式,质量和数量获取数据,并编写代码以将其操纵为准备好进行分析时所需的形式。他们是AI和机器学习开发人员,他们接受过分布式计算和机器学习方面的深入培训。从根本上说,他们是程序员。他们建立了可优化媒体投放位置的广告技术系统,可以保护消费者和企业的欺诈检测系统,可以保护的国防和情报系统,并且他们是制造自动驾驶汽车的机器人手。他们从头开始。这些开发人员都是训练有素的高要求计算机科学家,因此资源昂贵且稀缺。

 

数据的企业用户需要分析应用程序始终依赖的功能

可以这么说,他们不是编码员,他们需要始终依赖的相同SQL关系数据库和数据仓库,这些久经考验的真实平台功能强大,几乎为企业的所有操作系统,分析报告和仪表板提供了支持,另外还有成批的高技能IT专业人员可以设计,开发和运营这些平台,更具可扩展性的数据库和数据仓库,而它提供的是一组带有API的编程库,使您能够以更低的抽象级别进行编码,原始数据处理。

 

运营数据湖的要求

一个主要的误解是,您可以像对待数据库一样对待Hadoop上的数据湖。在数据湖中,数据在那里,但尚未清理,索引或操作数据。当公司的数据从进入Hadoop的几个源扩展到数百个时,这一点就变得非常明显。

 

1、摄取:他们需要能够摄取许多PB的历史数据,并能够实时从IoT和外源获取数百万个数据点的流。

2SQL:他们需要为传统的ETL管道,BI报告和仪表板提供强大的动力,而无需进行大量的重新编程。如果您需要进行为期一年的项目才能使旧报表再次有用,那么仅仅与BI集成就不再足够了。

3、表 与文件:分析师和DBA熟悉表和SQL。他们对使用开发环境,编译器和文件操作的编程语言不太满意。

4、分析:运营数据库需要在众多聚集和分组的表之间执行复杂的数据连接,以支持企业分析工作负载。

5、并发性:现实世界中没有一个数据科学家在沙盒中玩数据集,并且独立于其他任何人工作。实时操作数据湖有许多数据生产者和许多并发消费者。要使数据湖可操作,就需要具有支持许多用户的数据库功能。

6、备份和还原:系统错误和人为错误都是不可避免的。服务器宕机,整个数据中心丢失,操作员偶尔会犯错。结果,可操作的数据湖需要增量备份和还原,以根据意外事件使数据湖返回到更早的一致状态。传统数据湖中临时更改文件的平面文件系统使这一工作变得困难。数据库备份和还原功能以及实践可实现操作手册。

7、更新:整理数据非常困难,因此为应用程序提供动力也很困难。分析师需要更改数据以将数据纠缠到位,而无需每次需要处理一两个记录时都生成新的文件集来管理。此外,应用程序开发人员需要更改适当的记录以增强应用程序的功能。犯了错误,需要更新数据。对更新被低估的需求之一是分析的物化汇总。保持运营数据存储经常需要按地理位置,部门或其他维度来实现数据摘要。数据湖需要能够经常更新这些摘要以实现实时。

 

运营数据湖的业务利益

运营数据湖终实现了大数据的承诺,它们使全新的资源可用于操作和分析应用程序,由于Hadoop堆栈的分布式存储,可操作的数据湖具有可伸缩性,并且还通过利用大数据堆栈的分布式计算能力,提供了使计算更快的希望。但是他们使用数据仓库的坚定能力来做到这一点。

 

运营数据湖正在彻底改变行业

销售系统,仓储系统和运输系统中提取数据,以提供实时的全球供应链数据,他们正在利用实时外生载体数据和天气数据丰富这些数据湖,以支持新的实时供应链计划应用程序和可承诺量系统,这些系统既可以从经验中学习,也可以实时进行计划,患者数据和运营数据,以推动新的预测应用程序的发展,这些新的预测应用程序可帮助临床医生照料患者并帮助优化医院运营。

 

金融服务机构正在将客户和顾问数据提取到运营数据湖中

以帮助回答实时问题,例如,谁是我钱的客户,哪些客户可能会变得非常有价值,以及谁是我有效的顾问,想象一下,如果实时捕获跨销售和市场营销渠道的每次点击和移动访问并可以由运营应用程序访问,那么营销人员终将能做什么,拥有工程设备广泛网络的公司,例如电信公司,网络公司,公用事业以及石油和天然气公司,需要避免服务中断。他们的运营数据湖存储来自网络中每个组件的实时数据以及可预测下一个故障事件的电源预测应用程序,从而可以通过预测性维护主动避免此类事件。

 

我们如何运作数据湖

独特的数据平台,专门用于操作数据湖,它是在大数据堆栈上构建的无缝集成SQL 数据仓库,我们将以上所有要求提供给一个平台,该平台使用引擎盖下的多个引擎来提供这种多样化的功能,只需向引擎发出SQL,它将决定如何地处理查询以及要使用的计算引擎。

 

公司如何部署运营数据湖

如今,一些公司对隐私和安全性有严格的要求,并将其数据湖部署在本地Hadoop集群上。或者他们可以通过公共云上的数据库即服务部署它,无论平台如何,运营数据湖都能为金融服务,石油和天然气,医疗保健提供商和制造商等不同行业的公司提供的的存储速度以及内存中的分布式的分析火力,运营数据湖提供了数据湖的承诺,并提供了用户所需的实时性能。

 

Prev article

元数据和机器学习一起可以帮助自动化数据集成

Next article

优化时间序列应用程序的数据查询

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务