通过主数据管理巩固和相对数据质量
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-06-21
企业还必须考虑与其一致性维度有关的相关数据质量问题
正式意义上的数据质量方面之一,即字段可能全部填写,并且它们可能都在它们应该在的域内,但它们并不相同。我不能把它们放在一起,这些数据质量表现形式中的任何一种都可能会扰乱任何用例的数据流程,延长实现价值的时间,增加成本,甚至浪费金钱,使用主数据管理等方法对数据质量进行标准化可以解决这些问题,从而激发备受赞誉的数据为企业提供的价值。
分布式架构
除了一致性之外,数据质量的其他主要方面还包括准确性、性、完整性和重复数据删除,要实现数据的这些特征,组织必须克服两个主要挑战,将其归类为碎片化和不一致,数据位于一堆地方,它们看起来并不像彼此,前者与数据空间本身日益分散的性质有关,其中大量来源在企业外部,具有不同的体系结构、应用程序和数据类型,后者涉及数据源的分布式设置及其不同程度的隔离。
数据是在没有一致治理的情况下在孤岛中创建的
可能适合也可能不适合源系统的目的,但是当你把它放在一起并与来自不同系统的同一个人或实体的其他数据进行比较时,你会发现信息缺失、重叠、冲突,云的出现经常加剧这个问题,因为它是促成数据分布的主要媒介之一,有时还被用来集成数据,您的数据来自许多不同的地方,来自 ERP、您的 CRM、自定义应用程序、云应用程序、遗留应用程序、许多不同的地方,然后您将其吸入 公共云。
数据治理
数据治理的核心概念——如今通常被认为是人员、流程和技术——不仅可以管理不同源系统中的数据质量,还可以管理,等中心的数据质量,这是一个关键点,因为随着分布式位置数据量的增加,没有一个应用程序、工具或人员可以立即修复数据质量问题,方法以几种关键方式结合了这三个数据治理原则,以提供和相对数据质量,根据预定义规则转换数据的功能,因此它将遵守以“强制执行数据质量标准”的一致方式表示日期、客户姓名或位置的约定。
记录检测
这种方法具有确定记录是跨源还是在源内的同一实体的机制,这对于重复数据删除至关重要,使用模糊匹配和概率技术来匹配和合并、验证和纠正并同步回这些系统。
数据管理: 还可以作为一个中心点,根据领域知识和经验的各个方面来解决需要人类专业知识才能解决的任何冲突或缺失信息,在这些情况下,有助于管理工作,因为数据只是简单的矛盾,系统无法知道哪个版本是正确的,在这种情况下,一个人必须介入并工作。
自动化:大部分数据质量转换、匹配和合并供应都是自动化的,例如认知计算通过从数据管理员针对特定冲突或准确性问题的解决方案中学习,然后将其应用于未来的类似解决方案,从而实现额外的自动化。
和相对质量
通过结合数据治理的一些上述方面,以及元数据管理和数据建模等其他方面,规定了和相对数据质量。前者消除了信息缺失、过时或不准确的情况,后者同样重要,它使企业能够为多个用例跨来源合成有关实体的信息,从而从所有这些数据的可信和可靠来源的基础上产生可证明的商业价值,跨实体快速评估各种来源的信息的能力对从机器学习训练数据到交叉销售和向上销售的建议等方方面面产生积极影响。
通过揭示哪些客户住在同一屋檐下或者哪些家庭保险客户也是企业主
用户可以改进他们的营销和销售工作,通过家庭管理来降低成本和增加收入和超级家居,B2B2C使用 MDM 完善客户数据支持向 B2B2C 的发展,将其称为一种趋势,即通常没有终客户数据和情绪的制造商现在正试图获取它们,例如通过收集更多关于沃尔玛顾客使用特定制造商产品的数据,这些公司寻求“更多的客户知识来预测客户行为。
客户盈利能力
客户域中的适当数据质量也可以通过指示不同客户为客户盈利提供不同的利润来获得回报,能够理解这一点并细分客户价值是关键。
单一真相来源
正式意义上的数据质量方面之一,即字段可能全部填写,并且它们可能都在它们应该在的域内,但它们并不相同。我不能把它们放在一起,这些数据质量表现形式中的任何一种都可能会扰乱任何用例的数据流程,延长实现价值的时间,增加成本,甚至浪费金钱,使用主数据管理等方法对数据质量进行标准化可以解决这些问题,从而激发备受赞誉的数据为企业提供的价值。
分布式架构
除了一致性之外,数据质量的其他主要方面还包括准确性、性、完整性和重复数据删除,要实现数据的这些特征,组织必须克服两个主要挑战,将其归类为碎片化和不一致,数据位于一堆地方,它们看起来并不像彼此,前者与数据空间本身日益分散的性质有关,其中大量来源在企业外部,具有不同的体系结构、应用程序和数据类型,后者涉及数据源的分布式设置及其不同程度的隔离。
数据是在没有一致治理的情况下在孤岛中创建的
可能适合也可能不适合源系统的目的,但是当你把它放在一起并与来自不同系统的同一个人或实体的其他数据进行比较时,你会发现信息缺失、重叠、冲突,云的出现经常加剧这个问题,因为它是促成数据分布的主要媒介之一,有时还被用来集成数据,您的数据来自许多不同的地方,来自 ERP、您的 CRM、自定义应用程序、云应用程序、遗留应用程序、许多不同的地方,然后您将其吸入 公共云。
数据治理
数据治理的核心概念——如今通常被认为是人员、流程和技术——不仅可以管理不同源系统中的数据质量,还可以管理,等中心的数据质量,这是一个关键点,因为随着分布式位置数据量的增加,没有一个应用程序、工具或人员可以立即修复数据质量问题,方法以几种关键方式结合了这三个数据治理原则,以提供和相对数据质量,根据预定义规则转换数据的功能,因此它将遵守以“强制执行数据质量标准”的一致方式表示日期、客户姓名或位置的约定。
记录检测
这种方法具有确定记录是跨源还是在源内的同一实体的机制,这对于重复数据删除至关重要,使用模糊匹配和概率技术来匹配和合并、验证和纠正并同步回这些系统。
数据管理: 还可以作为一个中心点,根据领域知识和经验的各个方面来解决需要人类专业知识才能解决的任何冲突或缺失信息,在这些情况下,有助于管理工作,因为数据只是简单的矛盾,系统无法知道哪个版本是正确的,在这种情况下,一个人必须介入并工作。
自动化:大部分数据质量转换、匹配和合并供应都是自动化的,例如认知计算通过从数据管理员针对特定冲突或准确性问题的解决方案中学习,然后将其应用于未来的类似解决方案,从而实现额外的自动化。
和相对质量
通过结合数据治理的一些上述方面,以及元数据管理和数据建模等其他方面,规定了和相对数据质量。前者消除了信息缺失、过时或不准确的情况,后者同样重要,它使企业能够为多个用例跨来源合成有关实体的信息,从而从所有这些数据的可信和可靠来源的基础上产生可证明的商业价值,跨实体快速评估各种来源的信息的能力对从机器学习训练数据到交叉销售和向上销售的建议等方方面面产生积极影响。
通过揭示哪些客户住在同一屋檐下或者哪些家庭保险客户也是企业主
用户可以改进他们的营销和销售工作,通过家庭管理来降低成本和增加收入和超级家居,B2B2C使用 MDM 完善客户数据支持向 B2B2C 的发展,将其称为一种趋势,即通常没有终客户数据和情绪的制造商现在正试图获取它们,例如通过收集更多关于沃尔玛顾客使用特定制造商产品的数据,这些公司寻求“更多的客户知识来预测客户行为。
客户盈利能力
客户域中的适当数据质量也可以通过指示不同客户为客户盈利提供不同的利润来获得回报,能够理解这一点并细分客户价值是关键。
单一真相来源
数据质量是数据驱动实践的企业推动者,没有它数据将成为一种风险负债,而不是增值,有了它特别是当存在和相对数据质量时,企业可以结合有关特定实体的信息,不仅可以限度地降低风险,还可以扩大他们的底线,因为他们知道他们所使用的数据的真相,你的数据在你所获得的所有单个来源中都可能很棒,但是当你把它们放在一起时就会发生冲突,您需要的是高质量、可信的数据,以便将数据用于任何您想要的任何业务目的,包括机器学习、分析和报告。