使用敏捷数据湖方法论构建成功的受控数据湖

NEWS前沿动态

使用敏捷数据湖方法论构建成功的受控数据湖

来源：CPDA数据分析师网 / 作者：数据君 / 时间：2020-07-24

什么是元数据驱动的体系结构？

首先让我们谈谈“元数据驱动”架构的含义，元数据驱动的体系结构允许开发人员使用元数据（有关数据的数据）从逻辑中提取功能，元数据驱动的框架将允许我们创建通用模板，并在运行时将元数据作为参数传递-这使我们可以编写一次逻辑并多次重复使用，这种类型的体系结构将允许采用一种一致的方法将数据提取到数据湖中，提高上市速度，并提供管理进入湖中的数据的能力。

数据提取框架如何工作？

成功为客户构建了许多受控制的数据湖解决方案，为此，使用元数据驱动的体系结构创建了数据提取框架，因为它是轻量级的，开源的和代码生成器，它使我们能够灵活地为数据提取和转换过程设计通用组件。

数据摄取框架的核心组件是什么？框架数据库 –此元数据数据库存储：

全局参数- 例如您的Hadoop环境详细信息，Hive数据库和IP地址

配置元数据- 例如要运行的接收，以什么顺序运行，要使用哪些模板以及要运行多少个并行进程

操作元数据- 例如什么作业在什么时间运行，持续多长时间，处理了多少记录以及作业状态

可以在任何RDBMS数据库上设置此存储元数据的数据库。

可重复使用的模板/组件 – Talend中内置的一些模板包括：

对象发现- 识别需要从数据库或给定目录中提取文件的对象数

元数据定义- 从RDBMS数据库或定长文件的定界文件或Excel映射中提取元数据

数据库提取-Sqoop组件从RDBMS源（例如Oracle，SQL Server，MySQL，AS400，DB2等）提取数据。

文件提取- 用于固定长度，定界文件，XML，JSON文件等的模板。