使用敏捷数据湖方法论构建成功的受控数据湖
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-07-24
什么是元数据驱动的体系结构?
首先让我们谈谈“元数据驱动”架构的含义,元数据驱动的体系结构允许开发人员使用元数据(有关数据的数据)从逻辑中提取功能,元数据驱动的框架将允许我们创建通用模板,并在运行时将元数据作为参数传递-这使我们可以编写一次逻辑并多次重复使用,这种类型的体系结构将允许采用一种一致的方法将数据提取到数据湖中,提高上市速度,并提供管理进入湖中的数据的能力。
数据提取框架如何工作?
成功为客户构建了许多受控制的数据湖解决方案,为此,使用元数据驱动的体系结构创建了数据提取框架,因为它是轻量级的,开源的和代码生成器,它使我们能够灵活地为数据提取和转换过程设计通用组件。
数据摄取框架的核心组件是什么?框架数据库 –此元数据数据库存储:
全局参数- 例如您的Hadoop环境详细信息,Hive数据库和IP地址
配置元数据- 例如要运行的接收,以什么顺序运行,要使用哪些模板以及要运行多少个并行进程
操作元数据- 例如什么作业在什么时间运行,持续多长时间,处理了多少记录以及作业状态
可以在任何RDBMS数据库上设置此存储元数据的数据库。
可重复使用的模板/组件 – Talend中内置的一些模板包括:
对象发现- 识别需要从数据库或给定目录中提取文件的对象数
元数据定义- 从RDBMS数据库或定长文件的定界文件或Excel映射中提取元数据
数据库提取-Sqoop组件从RDBMS源(例如Oracle,SQL Server,MySQL,AS400,DB2等)提取数据。
文件提取- 用于固定长度,定界文件,XML,JSON文件等的模板。
Change Data Capture — 组件,用于标识自上次运行以来摄取数据以来的更改以及源表或源文件上的元数据更改
共同服务 –该框架利用以下服务:
可重新启动性-根据在框架数据库中细粒度级别收集的运行历史记录,框架可以完全重新启动
并行处理- 根据元数据存储中的配置确定要运行的并行作业的数量
依赖关系管理- 应根据元数据存储中定义的依赖关系运行作业的顺序
索引/目录编制 — 使用元数据管理工具创建索引和目录。
主流程是将通过提供流程ID设置为从企业计划程序运行的作业
主进程将提取所有作业,依赖项,参数等,并根据元数据存储中它们的配置顺序运行该作业,一切都在运行时通过这一过程进行控制,在主进程在运行时向他们提供输入之前,所有子作业都不会知道它们正在处理什么。
治理流程当请求摄取新的源系统时,该请求将转到治理委员会
理事会将审核请求并检查数据目录,以查看该数据湖中是否已存在该数据,如果是新数据集,他们将在框架数据库中输入详细信息,治理过程与数据摄取框架完全集成在一起,从而创建了一个完全治理的数据湖。