通过数据目录自动化实现元数据管理?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-05-12
什么是数据目录?
数据目录可以定义为元数据的集合,通常用于具有查询访问权限的数据管理,以帮助分析师和其他数据用户找到所需的数据,它用作企业内可用数据的清单,并提供访问以评估其预期用途的数据适用性,尽管具有所有优点,但数据目录的有效性取决于提供元数据集合的中央能力。
为什么选择数据目录?
在大数据和商业智能时代,数据目录正在成为元数据管理的本质,从而帮助和指导数据用户更好地理解其数据及其重要性,数据目录专注于数据资产,并将资产中的数据集与其相关的元数据联系起来,以帮助数据用户更好地理解数据,数据资产可以是数据用户需要查找和访问以生成决策见解所需的文件,数据库或应用程序。它们可以驻留在数据湖,仓库或任何其他共享数据资源中。
人员元数据提供有关从事数据资产工作的人员的信息
他们可能是消费者,策展人,中小型企业或管家,搜索元数据支持使用关键字来标记和搜索资产中的数据,以帮助人们找到数据,处理元数据描述了数据经过的转换和派生以及在其生命周期中如何对其进行管理,供应商元数据描述了从外部来源获得的数据,从而提供了有关来源以及订阅和许可限制的见解。
数据目录如何工作?
数据目录包括许多与分类信息的核心功能有关的特性和功能–收集有关识别和描述可用信息清单的数据的数据,拥有大量可用和可共享的数据,尝试手动进行编目变得不切实际。随时随地自动发现数据资产变得至关重要,使用人工智能和机器学习等技术进行元数据收集和标记对于通过少的人工工作从数据分类中获取价值变得很重要。
除了捕获数据的元数据以外,数据目录所捕获的其他基本特征和功能还包括:
数据搜索:此功能包括搜索构面,关键字和业务术语。对于非技术数据用户,业务术语搜索功能尤其重要。可以通过相关性和使用频率来组织搜索功能,从而为相关的信息提供搜索结果。
数据评估:选择合适的数据资产取决于评估其对特定用例的适用性的能力,而无需先导入数据。数据评估的重要功能包括预览数据资产,查看所有关联的元数据,访问用户评级和评论以及查看数据质量信息的功能。
数据访问:数据访问应该是无缝的用户体验,数据目录可以直接实现访问协议或使用访问技术来实现。数据访问功能包括对安全性,隐私和敏感数据合规性的保护。
可以根据数据目录的类型探索不同的功能
根据元数据及其对组织的重要性来使用不同类型的数据目录,根据元数据类别的使用选择数据目录,不同的数据目录工具依赖于元数据类别组合的收集和使用。
技术元数据管理目录:技术元数据管理数据目录捕获并提供有关用于集成开发和ETL的源数据和目标数据的结构信息。该数据目录主要依赖于:
结构性元数据(例如,数据元素名称,数据类型和数据元素大小)
供应商元数据(例如,数据资产人口统计信息)
处理元数据(例如,数据转换和数据派生)
查询元数据(例如,业务词汇表和数据元素定义)
数据沿袭工具:数据沿袭工具结合了:
供应商元数据,例如数据所有者
制造数据资产的原始来源的详细信息
数据生产详细说明了来自处理元数据的数据转换,数据派生以及数据处理管道的结构。
机器学习数据目录:机器学习数据资产清单融合了来自以下方面的数据资产生产的实际方面:
结构元数据(数据元素名称,长度,类型)
处理元数据(数据转换,派生和管道流程图)
查询元数据,包括语义细节和历史用法,以生成可搜索的数据目录
数据门户:数据门户的目标是透明性,并且数据门户通常会扫描然后预览可访问的数据资产。为了实现这一点,数据门户结合了:
结构元数据,
供应商元数据,
查询元数据。
提供可用数据资产,数据元素元数据,有关不同数据源的信息以及数据资产人口统计信息(例如,记录数或字节大小)的列表。它还提供了一种浏览数据资产内数据实例子集的方法。
数据治理工具:数据治理工具通过监视数据质量并在出现问题时警告数据管理者来确保数据可用性。这些工具已经从元数据存储库产品发展到合并数据质量策略的定义,并支持运营数据管理流程和过程。
数据安全和保护目录:这些类型的数据目录基于:
用户元数据,用于收集有关不同用户,组和角色的信息,
从查询元数据中提取不同的分类,
治理元数据中的数据保护指令可用于定义和实施运行时数据保护和安全策略。
所有解决方案都包含消耗和利用的多种类型的元数据,并且没有一个目录工具能够满足对数据目录解决方案的需求。
确定正确的数据目录解决方案需要注意组织关键的用户方案和要求,例如:
企业范围的业务词汇表和数据定义的范围,
使用元数据标准和已定义的过程来收集,记录和共享不同类别的元数据,
通过逆向工程推断数据模型和沿袭,
细心的数据管理为数据资产的配置和准备建立了标准化的流程,
简化了智能查询处理,因此数据使用者可以快速找到所需信息,并为寻求数据资产的人预览数据,以回答正在发生的新业务问题,
设计,实施和监视数据管道以及处理阶段,通过这些阶段的数据流进行终用户报告和分析,
运营数据治理,评估现有的数据治理和管理角色及其职责,
数据验证和质量保证,实现数据信任,
数据生产者和不同数据消费者之间的协作,
数据内容分类及其与数据组织和数据保护的关系。
评估数据目录以适合组织
虽然并非每个数据目录工具都不一定能满足所有企业需求,但数据目录有助于建立信息准备状态,以应对危机并从危机中恢复。另一个重要方面是考虑数据目录解决方案正在根据业务需求对其进行评估。
对数据利益相关者社区的成员进行分类
数据目录的值直接与其满足不同数据社区的需求的程度相对应,确定谁是数据生产者和数据消费者,并根据他们的特定需求对它们进行分类,以产生和/或使用不同类型的元数据。
定义用例:监视和评估数据使用者的需求以及他们采用的满足其需求的流程,定义这些要求将有助于理解和识别数据目录解决方案中所需的数据智能功能。
优先考虑能力:基于需求评估,对可取能力的重复请求将有助于创建组织优先事项。
建立评估标准:随着所需功能的出现,考虑在支持那些功能方面如何评估目录工具。需要建立度量标准以进行评估。
评估工具选项:寻找适合组织用例和期望的技术组合,而不是选择一种千篇一律的产品。
概念验证:执行一些项目,这些项目不仅使组织能够查看工具功能,而且可以提高对其价值的认识。
可访问性:使用评估标准来确定满足数据社区需求的总体解决方案。
数据目录的好处
数据目录的好处体现在元数据的价值和质量以及从中获得的功能,分析人员在他们的分析中观察到数据编目的好处,它为业务和数据分析人员提供了对现有数据,其内容以及其质量和有用性的完全可见性,分析的质量和效率得到了显着提高,组织分析能力得到了提高,而资源却没有增加,这是因为分析师不需要花费几乎相同的时间来查找,整理和清理数据,通过实施数据目录可以很容易地看出一些常见的好处:
提高数据效率,
改善了数据环境,
降低错误风险,
改进了数据分析。
数据目录可以定义为元数据的集合,通常用于具有查询访问权限的数据管理,以帮助分析师和其他数据用户找到所需的数据,它用作企业内可用数据的清单,并提供访问以评估其预期用途的数据适用性,尽管具有所有优点,但数据目录的有效性取决于提供元数据集合的中央能力。
为什么选择数据目录?
在大数据和商业智能时代,数据目录正在成为元数据管理的本质,从而帮助和指导数据用户更好地理解其数据及其重要性,数据目录专注于数据资产,并将资产中的数据集与其相关的元数据联系起来,以帮助数据用户更好地理解数据,数据资产可以是数据用户需要查找和访问以生成决策见解所需的文件,数据库或应用程序。它们可以驻留在数据湖,仓库或任何其他共享数据资源中。
人员元数据提供有关从事数据资产工作的人员的信息
他们可能是消费者,策展人,中小型企业或管家,搜索元数据支持使用关键字来标记和搜索资产中的数据,以帮助人们找到数据,处理元数据描述了数据经过的转换和派生以及在其生命周期中如何对其进行管理,供应商元数据描述了从外部来源获得的数据,从而提供了有关来源以及订阅和许可限制的见解。
数据目录如何工作?
数据目录包括许多与分类信息的核心功能有关的特性和功能–收集有关识别和描述可用信息清单的数据的数据,拥有大量可用和可共享的数据,尝试手动进行编目变得不切实际。随时随地自动发现数据资产变得至关重要,使用人工智能和机器学习等技术进行元数据收集和标记对于通过少的人工工作从数据分类中获取价值变得很重要。
除了捕获数据的元数据以外,数据目录所捕获的其他基本特征和功能还包括:
数据搜索:此功能包括搜索构面,关键字和业务术语。对于非技术数据用户,业务术语搜索功能尤其重要。可以通过相关性和使用频率来组织搜索功能,从而为相关的信息提供搜索结果。
数据评估:选择合适的数据资产取决于评估其对特定用例的适用性的能力,而无需先导入数据。数据评估的重要功能包括预览数据资产,查看所有关联的元数据,访问用户评级和评论以及查看数据质量信息的功能。
数据访问:数据访问应该是无缝的用户体验,数据目录可以直接实现访问协议或使用访问技术来实现。数据访问功能包括对安全性,隐私和敏感数据合规性的保护。
可以根据数据目录的类型探索不同的功能
根据元数据及其对组织的重要性来使用不同类型的数据目录,根据元数据类别的使用选择数据目录,不同的数据目录工具依赖于元数据类别组合的收集和使用。
技术元数据管理目录:技术元数据管理数据目录捕获并提供有关用于集成开发和ETL的源数据和目标数据的结构信息。该数据目录主要依赖于:
结构性元数据(例如,数据元素名称,数据类型和数据元素大小)
供应商元数据(例如,数据资产人口统计信息)
处理元数据(例如,数据转换和数据派生)
查询元数据(例如,业务词汇表和数据元素定义)
数据沿袭工具:数据沿袭工具结合了:
供应商元数据,例如数据所有者
制造数据资产的原始来源的详细信息
数据生产详细说明了来自处理元数据的数据转换,数据派生以及数据处理管道的结构。
机器学习数据目录:机器学习数据资产清单融合了来自以下方面的数据资产生产的实际方面:
结构元数据(数据元素名称,长度,类型)
处理元数据(数据转换,派生和管道流程图)
查询元数据,包括语义细节和历史用法,以生成可搜索的数据目录
数据门户:数据门户的目标是透明性,并且数据门户通常会扫描然后预览可访问的数据资产。为了实现这一点,数据门户结合了:
结构元数据,
供应商元数据,
查询元数据。
提供可用数据资产,数据元素元数据,有关不同数据源的信息以及数据资产人口统计信息(例如,记录数或字节大小)的列表。它还提供了一种浏览数据资产内数据实例子集的方法。
数据治理工具:数据治理工具通过监视数据质量并在出现问题时警告数据管理者来确保数据可用性。这些工具已经从元数据存储库产品发展到合并数据质量策略的定义,并支持运营数据管理流程和过程。
数据安全和保护目录:这些类型的数据目录基于:
用户元数据,用于收集有关不同用户,组和角色的信息,
从查询元数据中提取不同的分类,
治理元数据中的数据保护指令可用于定义和实施运行时数据保护和安全策略。
所有解决方案都包含消耗和利用的多种类型的元数据,并且没有一个目录工具能够满足对数据目录解决方案的需求。
确定正确的数据目录解决方案需要注意组织关键的用户方案和要求,例如:
企业范围的业务词汇表和数据定义的范围,
使用元数据标准和已定义的过程来收集,记录和共享不同类别的元数据,
通过逆向工程推断数据模型和沿袭,
细心的数据管理为数据资产的配置和准备建立了标准化的流程,
简化了智能查询处理,因此数据使用者可以快速找到所需信息,并为寻求数据资产的人预览数据,以回答正在发生的新业务问题,
设计,实施和监视数据管道以及处理阶段,通过这些阶段的数据流进行终用户报告和分析,
运营数据治理,评估现有的数据治理和管理角色及其职责,
数据验证和质量保证,实现数据信任,
数据生产者和不同数据消费者之间的协作,
数据内容分类及其与数据组织和数据保护的关系。
评估数据目录以适合组织
虽然并非每个数据目录工具都不一定能满足所有企业需求,但数据目录有助于建立信息准备状态,以应对危机并从危机中恢复。另一个重要方面是考虑数据目录解决方案正在根据业务需求对其进行评估。
对数据利益相关者社区的成员进行分类
数据目录的值直接与其满足不同数据社区的需求的程度相对应,确定谁是数据生产者和数据消费者,并根据他们的特定需求对它们进行分类,以产生和/或使用不同类型的元数据。
定义用例:监视和评估数据使用者的需求以及他们采用的满足其需求的流程,定义这些要求将有助于理解和识别数据目录解决方案中所需的数据智能功能。
优先考虑能力:基于需求评估,对可取能力的重复请求将有助于创建组织优先事项。
建立评估标准:随着所需功能的出现,考虑在支持那些功能方面如何评估目录工具。需要建立度量标准以进行评估。
评估工具选项:寻找适合组织用例和期望的技术组合,而不是选择一种千篇一律的产品。
概念验证:执行一些项目,这些项目不仅使组织能够查看工具功能,而且可以提高对其价值的认识。
可访问性:使用评估标准来确定满足数据社区需求的总体解决方案。
数据目录的好处
数据目录的好处体现在元数据的价值和质量以及从中获得的功能,分析人员在他们的分析中观察到数据编目的好处,它为业务和数据分析人员提供了对现有数据,其内容以及其质量和有用性的完全可见性,分析的质量和效率得到了显着提高,组织分析能力得到了提高,而资源却没有增加,这是因为分析师不需要花费几乎相同的时间来查找,整理和清理数据,通过实施数据目录可以很容易地看出一些常见的好处:
提高数据效率,
改善了数据环境,
降低错误风险,
改进了数据分析。
通过数据目录自动执行元数据管理可帮助用户了解整个组织中准确的数据流。它提供有关数据移动的见解,并帮助构建,改进和监视系统及其消耗的数据。在当今时代,元数据管理和编目已成为促进数据质量,安全性和准确性的必要条件。
商业联合会数据分析专业委员会