我们对敏捷数据湖的定义是怎样的?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-07-27
数据湖是一个存储库,它以本机格式保存大量原始数据,并以结构化,半结构化和非结构化数据的形式合并
您可以将任何数据放入湖泊中,但是您需要将数据取出,这意味着必须存在某种结构,数据湖的真正想法是在一个地方存储所有企业数据,范围从原始数据(这意味着源系统数据的精确副本)到转换后的数据,再用于各种业务需求,包括报告,可视化,分析,机器学习,数据科学等等,数据湖是一个存储库,它以其本机格式存储大量原始数据,包括结构化,半结构化和非结构化数据,其中直到需要数据时才定义数据结构和需求。
之所以定义更好,是因为它既包含了数据结构的先决条件,又将在将来的某个时候以某种方式使用存储的数据
从中我们可以放心地期望价值,并且需要采用敏捷方法,因此,数据湖包括来自关系数据库的结构化数据(基本行和列),半结构化数据(如CSV,日志,XML,JSON ),非结构化数据(电子邮件,文档,PDF ),甚至二进制数据(通常为 图像,图片 、音频和视频),从而创建一个容纳所有形式数据的集中式数据存储。 然后,数据湖提供了一个信息平台,可以在需要时在其上为许多业务用例提供服务。数据进入湖泊是不够的,数据也必须出来。
并且,我们要避免“数据沼泽”,它本质上是一个恶化的和/或不受管理的数据湖,其预期用户无法访问和/或无法使用它,从而几乎没有为企业提供业务价值。
数据湖-初期
在深入探讨之前,我想分享一下我们如何到达这里,数据湖代表着数据爆炸(量变速度),旧业务应用程序的增长以及众多新数据源(IoT,WSL,RSS,社交媒体等)以及从现场迁移的结果,云(和混合)的前提,业务流程变得更加复杂,近引入了新技术,以增强业务洞察力和数据挖掘,并以机器学习和数据科学等新方式探索数据,在过去的30年中,我们见证了数据仓库的开创性,其业务报告一直贯穿到敏捷数据湖我们将看到,其他勇敢的人支持各种各样的业务用例。
成功的数据湖是基于模式,元数据驱动(用于自动化)的业务数据存储库
满足了数据治理和数据安全性的要求,湖泊中的数据应呈现合并的数据和“真相记录”的汇总,以确保信息的准确性(除非您知道如何做到,否则很难做到)和及时性,遵循敏捷的方法,使用元数据管理,应用数据概要分析,主数据管理等,我认为必须代表“全面质量管理”信息系统。
数据湖有什么用?
本质上,数据湖用于系统(企业)应用程序下游的任何以数据为中心的业务用例,有助于推动企业洞察力和运营效率。以下是一些常见示例:
1、商业信息,系统集成和实时数据处理
2、报表,仪表板和分析
3、业务洞察力,数据挖掘,机器学习和数据科学
4、客户,供应商,产品和服务360
您如何构建敏捷数据湖?
我对您的问题是,您是否考虑其中任何一项?我敢打赌,你是。我接下来的问题是;你知道怎么去那里吗?您是否能够以正确的方式构建并避免沼泽?我认为您正在阅读以了解更多信息。
我相信您必须首先了解并接受以下三个主要原则:
1、正确实施的生态系统,数据模型,体系结构和方法论
2、合并了卓越的数据处理,治理和安全性
3、故意使用工作设计模式和实践
挑战在于如何避免沼泽
我相信您必须使用正确的架构,数据模型和方法,您确实必须放弃“传统”思维;适应并采用“现代”方法,这是必不可少的,在考虑了这些关键点之前,不要陷入以为知道数据湖是什么以及它如何工作的陷阱。
数据提取是关于捕获数据,对其进行管理并为后续处理做好准备
我觉得这就像一箱箱装的数据,被丢到了湖的沙滩上,着陆区,称为“登台区”,持久因为一旦到达,它就会留在那里;出于所有实际目的,一旦在下游进行处理,它就会成为有效的归档文件(您不必将其复制到其他地方),此PSA将包含累积的数据,文本,语音,视频或其任何内容。
您可能会注意到,我还没有在谈论技术
但是我至少要指出,根据PSA所使用的技术,您可能需要在某些时候卸载此数据,我的想法是,一个有效的文件存储解决方案是适合这个1 日阶段,数据适应是数据的全面智能合并,必须有机地适应才能生存并提供价值,这些改编采取多种形式(我们将在下面介绍),但实际上驻留在原始的级别的粒度数据模型中,然后可以对其进行进一步处理,或者我称之为业务用途,以用于各种领域案件,这里的数据处理要求可能涉及很多,所以我想尽可能地自动化,自动化需要元数据。元数据管理假定治理,并且不要忘记安全性,我们将在短期内再讨论这些。
数据消耗不仅与业务用户有关,还与业务信息其支持的知识以及希望从中获得的智慧有关
您可能对金字塔很熟悉;数据>信息>知识>智慧。我喜欢在“知识”之后插入“理解”,因为它引导了智慧,数据应被视为公司资产并应进行投资,数据便成为一种商品,使我们能够专注于从中获得的信息,知识,理解和智慧。因此,它与数据有关并从中获取价值。