垃圾元数据是数据目录的风险吗?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-05-12
不要垃圾元数据
这与元数据和数据目录有什么关系?好吧数据目录是旨在对企业有用的元数据的集合,现在有许多不同类型的元数据,但我要重点介绍的类型是技术元数据,技术元数据是来自计算机化环境的结构和操作的元数据,它包括数据库结构,数据配置文件,ETL元数据,推断的外键,报告结构,API等等,越来越多的技术元数据被自动收集并大规模集成到数据目录中。
起初这似乎是一个巨大而有益的成就
所有这些技术元数据都集中在一个地方,对于诸如数据发现,了解数据出处以及寻找数据源之类的用例而言,将非常有用,不可否认,收集和集成所有这些元数据的功能的开发是一项重大的技术成就,但是这里有一个假设,我们假设所有元数据都具有同等价值,但是真的是这样吗?积者必须认为他们所有的东西都是有价值的,否则他们不会积它,我们可能会因为认为某些元数据很容易收集而认为有价值,因此会犯类似的错误吗?
元数据如何成为垃圾数据
当客户向我解释说他害怕让业务用户访问数据目录时,这个问题首先出现在我的家里,因为他们可能会在搜索栏中键入“ CUST”之类的内容,并从中获取成千上万的结果。各种技术组件和服务,他理所当然地担心用户会被惊吓而放弃,甚至无法理解元数据是从中获取的技术对象的类型,因此这里有一个悖论,数据目录包含的技术元数据越多,它们对企业数据资产的描述就越准确和完整,但同时,业务用户也就越无法使用这些数据,而这些用户将成为数据目录的主要受益者。看来我们已经创建了“垃圾元数据”,即业务用户无法有效使用的元数据。
“垃圾”是企业观点
这是一个公平的结论吗?回到与我们的积者相似的地方,许多积者会争辩说,他们的任何财产将来都可能变得有用,这一论点不能被驳斥,因为没人能预测未来。垃圾级元数据也许也是如此,将来,AI或ML可能会用于从中获取业务见解,我们可以通过定义垃圾元数据及其属性来澄清这一点,垃圾元数据是:业务用户无法用业务术语理解的元数据。
也就是说,一个垃圾元数据要么?
没有业务可理解的内容;或者与其他足够的元数据对象无关,这些其他元数据对象确实具有足够的业务可理解内容,以便用户推断项目的业务理解,这里的主要观点是,正在考虑的是业务用户的观点。我们所说的垃圾元数据对于IT用户可能非常有用,但是数据目录已向我们保证,它们将在整个企业范围内使用,并且将为企业中的所有用户使数据民主化,否则,它们将只是工作台之类的另一种IT技术工具。
垃圾元数据是真实的吗?
这与元数据和数据目录有什么关系?好吧数据目录是旨在对企业有用的元数据的集合,现在有许多不同类型的元数据,但我要重点介绍的类型是技术元数据,技术元数据是来自计算机化环境的结构和操作的元数据,它包括数据库结构,数据配置文件,ETL元数据,推断的外键,报告结构,API等等,越来越多的技术元数据被自动收集并大规模集成到数据目录中。
起初这似乎是一个巨大而有益的成就
所有这些技术元数据都集中在一个地方,对于诸如数据发现,了解数据出处以及寻找数据源之类的用例而言,将非常有用,不可否认,收集和集成所有这些元数据的功能的开发是一项重大的技术成就,但是这里有一个假设,我们假设所有元数据都具有同等价值,但是真的是这样吗?积者必须认为他们所有的东西都是有价值的,否则他们不会积它,我们可能会因为认为某些元数据很容易收集而认为有价值,因此会犯类似的错误吗?
元数据如何成为垃圾数据
当客户向我解释说他害怕让业务用户访问数据目录时,这个问题首先出现在我的家里,因为他们可能会在搜索栏中键入“ CUST”之类的内容,并从中获取成千上万的结果。各种技术组件和服务,他理所当然地担心用户会被惊吓而放弃,甚至无法理解元数据是从中获取的技术对象的类型,因此这里有一个悖论,数据目录包含的技术元数据越多,它们对企业数据资产的描述就越准确和完整,但同时,业务用户也就越无法使用这些数据,而这些用户将成为数据目录的主要受益者。看来我们已经创建了“垃圾元数据”,即业务用户无法有效使用的元数据。
“垃圾”是企业观点
这是一个公平的结论吗?回到与我们的积者相似的地方,许多积者会争辩说,他们的任何财产将来都可能变得有用,这一论点不能被驳斥,因为没人能预测未来。垃圾级元数据也许也是如此,将来,AI或ML可能会用于从中获取业务见解,我们可以通过定义垃圾元数据及其属性来澄清这一点,垃圾元数据是:业务用户无法用业务术语理解的元数据。
也就是说,一个垃圾元数据要么?
没有业务可理解的内容;或者与其他足够的元数据对象无关,这些其他元数据对象确实具有足够的业务可理解内容,以便用户推断项目的业务理解,这里的主要观点是,正在考虑的是业务用户的观点。我们所说的垃圾元数据对于IT用户可能非常有用,但是数据目录已向我们保证,它们将在整个企业范围内使用,并且将为企业中的所有用户使数据民主化,否则,它们将只是工作台之类的另一种IT技术工具。
垃圾元数据是真实的吗?
我认为在一定程度上。数据目录中的任何元数据都必须以业务术语可以理解,甚至可以被业务用户考虑,即使那样它也可能没有商业用途,但是我当然不想暗示所有技术元数据都是垃圾数据-只是其中一些是,而且就像a积者一样,我们无法完全消除垃圾元数据,因为将来可能有一种方法可以弄清楚如何从中获取商业价值,但是作为数据治理专家,我们需要找到合适的平衡点,以始终保持我们的数据目录对我们的业务用户有用。
商业联合会数据分析专业委员会