为了数据的完整性如何建立可靠见解的基础?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-02-01
什么是数据完整性?
我们大多数人对数据完整性提出的个问题是:“此数据是否准确?” 尽管这是更大的数据完整性问题的重要组成部分,但这一概念比这更深入。数据完整性着眼于数据的整个生命周期,并考虑围绕其生成,存储,访问和应用以完成特定业务任务的过程。在整个生命周期中,良好的数据完整性计划旨在确保数据可用,完整和准确。
数据完整性风险
我们刚刚列出的每个数据特征-可用,完整和准确-都暴露出一个特定的弱点,您可以使用它来防止数据完整性方面的工作,对于初学者来说,不可用:当数据不可用时,企业在运作时无法查看其行为或历史的特定方面,您可能拥有销售数据,市场营销数据或财务数据,但是如果没有适当水平的数据完整性和可用性,就无法实际使用它来做出有效的决策。您根本没有执行分析所需的访问权限,不完整的数据会带来类似的问题,您的公司的运作就像是用于洞察力的数据是完整的,但可能会提出与现实不符的洞察力,当然许多公司在那里对不完整的数据集进行复杂的分析,然后在预测错误的情况下挠头,正确的数据完整性计划可以帮助避免这样的结果。
就像不完整的数据一样,当数据集包含不准确性时,企业会做出错误的决定
认为它们是正确的决定,在某些情况下,您可能会很幸运,并且企业在做出决定之前意识到数据是错误的,但这仍然会损害您与企业之间建立的信任,适当的数据完整性策略可以避免所有这些陷阱。
确保数据完整性的手段
数据完整性可分为两个领域:物理和逻辑,物理数据完整性是指数据的存储和访问方式,这包括您的物理本地服务器以及您可能远程连接到的任何云数据库,您的设备如何物理保护?您的灾难恢复计划是什么?所有这些都有助于您的整体数据完整性配置文件,逻辑数据完整性旨在防止人为错误,我们将在下面的测试部分中详细探讨这个概念。
数据完整性:过程和状态
有两种确保数据完整性的方法:过程和测试。前者使我们能够在生成数据之前对其进行控制,而后者使我们能够确定数据是否存在会影响其可用性,完整性或准确性的问题,流程驱动的数据完整性:正确生成数据,数据转换是修复不良数据的解决方案,但是如果我们不关注导致数据变得不理想或企业无法使用的数据源,那么我们将注定永远追逐我们的尾巴,进行清理处理不良数据,而不是解决根本原因,一个强大的数据完整性程序首先要了解我们要跟踪的数据,该数据如何进入我们的系统。
如何存储以及存储时间的长短
在考虑拥有什么数据之前,我们应该知道我们要跟踪的内容,回答了这个问题后,我们可以考虑如何跟踪这些数据:它将自动进行吗?会手动输入吗?如果是后者,我们应该考虑要采用哪些流程或控件,以确保手动输入的数据是一致的,一旦知道了这一点,我们就可以回答有关数据将被加载的频率及其驻留位置的问题,拥有对流程的深刻理解并进行了尽职调查以确保我们在记录数据的方式上没有差距。
我们可以建立对数据外观和验证方式的期望
从而引导我们进行测试,通过测试确保数据库中的数据完整性,验证数据的主要机制是测试,当人们想到数据完整性时,通常会想到这一点,但是我们应该真正考虑这部分数据质量,话虽如此,我们可以对数据进行标准检查,以评估数据库中数据的质量,参照完整性:评估一个表/数据存储中一个值的存在与另一表中该值的存在一致,可用于检查字段的完整性。如果我们知道某个字段不应为空,则可以进行测试以确保是这种情况,性:此测试用于避免重复或计数过多,这与空值检查一起在我们认为是主键的字段中很常见, 可接受的值/范围:如果我们知道某个字段应仅包含特定值或一定范围的值,则可以对其进行测试以确保是这种情况。
新近度:此项检查可确保数据为数据,而不是陈旧数据
如果我们不能足够严格地控制流程以确保数据地进入系统,则业务逻辑测试对于避免数据不准确至关重要。我们还使用它们来评估我们应用于数据以对其进行转换的逻辑正在输出准确的见解,您可能在公司数据上运行的业务逻辑测试的示例包括确保仅将销售机会分配给客户主管,您还希望通过市场营销渠道中的适当步骤来验证潜在客户,另一个重要信息是客户购买的总金额是否与报告的收入相匹配,在原始数据进入您的数据系统之后以及整个数据管道/数据转换生命周期中均应进行测试,以确保在整个过程中始终如一的质量和完整性。
清理不符合数据完整性标准的数据
现在我们知道什么是数据完整性,我们应该讨论发现不符合我们标准的数据时该怎么做,当数据不可用时,我们需要选择支持连续数据可用性的系统,了解您的数据体系结构并了解弱点将使您知道可以做些什么来保证100%的可用性,不完整的数据(例如已删除或从未生成的数据)可能难以处理,但是使用备份将允许您还原丢失的数据,访问控制可以防止不必要的删除,因此请确保所有用户都设置了正确的权限,定期测试还可以帮助确保数据始终遵循您的程序,并且没有间隙。
如果可能的话应该在源系统中修复不正确的数据
只要您有访问权限和控制权,就可以解决此问题,在较大的数据集中,如果预计会有一定程度的错误,则使用错误率和阈值来提供一定的容错能力将使您能够继续灵活使用数据,但会收到较大问题的警报。
区分数据完整性和安全性
我们大多数人对数据完整性提出的个问题是:“此数据是否准确?” 尽管这是更大的数据完整性问题的重要组成部分,但这一概念比这更深入。数据完整性着眼于数据的整个生命周期,并考虑围绕其生成,存储,访问和应用以完成特定业务任务的过程。在整个生命周期中,良好的数据完整性计划旨在确保数据可用,完整和准确。
数据完整性风险
我们刚刚列出的每个数据特征-可用,完整和准确-都暴露出一个特定的弱点,您可以使用它来防止数据完整性方面的工作,对于初学者来说,不可用:当数据不可用时,企业在运作时无法查看其行为或历史的特定方面,您可能拥有销售数据,市场营销数据或财务数据,但是如果没有适当水平的数据完整性和可用性,就无法实际使用它来做出有效的决策。您根本没有执行分析所需的访问权限,不完整的数据会带来类似的问题,您的公司的运作就像是用于洞察力的数据是完整的,但可能会提出与现实不符的洞察力,当然许多公司在那里对不完整的数据集进行复杂的分析,然后在预测错误的情况下挠头,正确的数据完整性计划可以帮助避免这样的结果。
就像不完整的数据一样,当数据集包含不准确性时,企业会做出错误的决定
认为它们是正确的决定,在某些情况下,您可能会很幸运,并且企业在做出决定之前意识到数据是错误的,但这仍然会损害您与企业之间建立的信任,适当的数据完整性策略可以避免所有这些陷阱。
确保数据完整性的手段
数据完整性可分为两个领域:物理和逻辑,物理数据完整性是指数据的存储和访问方式,这包括您的物理本地服务器以及您可能远程连接到的任何云数据库,您的设备如何物理保护?您的灾难恢复计划是什么?所有这些都有助于您的整体数据完整性配置文件,逻辑数据完整性旨在防止人为错误,我们将在下面的测试部分中详细探讨这个概念。
数据完整性:过程和状态
有两种确保数据完整性的方法:过程和测试。前者使我们能够在生成数据之前对其进行控制,而后者使我们能够确定数据是否存在会影响其可用性,完整性或准确性的问题,流程驱动的数据完整性:正确生成数据,数据转换是修复不良数据的解决方案,但是如果我们不关注导致数据变得不理想或企业无法使用的数据源,那么我们将注定永远追逐我们的尾巴,进行清理处理不良数据,而不是解决根本原因,一个强大的数据完整性程序首先要了解我们要跟踪的数据,该数据如何进入我们的系统。
如何存储以及存储时间的长短
在考虑拥有什么数据之前,我们应该知道我们要跟踪的内容,回答了这个问题后,我们可以考虑如何跟踪这些数据:它将自动进行吗?会手动输入吗?如果是后者,我们应该考虑要采用哪些流程或控件,以确保手动输入的数据是一致的,一旦知道了这一点,我们就可以回答有关数据将被加载的频率及其驻留位置的问题,拥有对流程的深刻理解并进行了尽职调查以确保我们在记录数据的方式上没有差距。
我们可以建立对数据外观和验证方式的期望
从而引导我们进行测试,通过测试确保数据库中的数据完整性,验证数据的主要机制是测试,当人们想到数据完整性时,通常会想到这一点,但是我们应该真正考虑这部分数据质量,话虽如此,我们可以对数据进行标准检查,以评估数据库中数据的质量,参照完整性:评估一个表/数据存储中一个值的存在与另一表中该值的存在一致,可用于检查字段的完整性。如果我们知道某个字段不应为空,则可以进行测试以确保是这种情况,性:此测试用于避免重复或计数过多,这与空值检查一起在我们认为是主键的字段中很常见, 可接受的值/范围:如果我们知道某个字段应仅包含特定值或一定范围的值,则可以对其进行测试以确保是这种情况。
新近度:此项检查可确保数据为数据,而不是陈旧数据
如果我们不能足够严格地控制流程以确保数据地进入系统,则业务逻辑测试对于避免数据不准确至关重要。我们还使用它们来评估我们应用于数据以对其进行转换的逻辑正在输出准确的见解,您可能在公司数据上运行的业务逻辑测试的示例包括确保仅将销售机会分配给客户主管,您还希望通过市场营销渠道中的适当步骤来验证潜在客户,另一个重要信息是客户购买的总金额是否与报告的收入相匹配,在原始数据进入您的数据系统之后以及整个数据管道/数据转换生命周期中均应进行测试,以确保在整个过程中始终如一的质量和完整性。
清理不符合数据完整性标准的数据
现在我们知道什么是数据完整性,我们应该讨论发现不符合我们标准的数据时该怎么做,当数据不可用时,我们需要选择支持连续数据可用性的系统,了解您的数据体系结构并了解弱点将使您知道可以做些什么来保证100%的可用性,不完整的数据(例如已删除或从未生成的数据)可能难以处理,但是使用备份将允许您还原丢失的数据,访问控制可以防止不必要的删除,因此请确保所有用户都设置了正确的权限,定期测试还可以帮助确保数据始终遵循您的程序,并且没有间隙。
如果可能的话应该在源系统中修复不正确的数据
只要您有访问权限和控制权,就可以解决此问题,在较大的数据集中,如果预计会有一定程度的错误,则使用错误率和阈值来提供一定的容错能力将使您能够继续灵活使用数据,但会收到较大问题的警报。
区分数据完整性和安全性
数据安全性是数据完整性的邻居,因为我们强烈依赖它来避免对数据进行不必要的干预,这些干预可能会更改其可用性,完整性和准确性,从而改变我们的业务价值。在人员,流程和系统之间建立强大的数据安全系统,可以防止数据以有害或意外的方式损坏或访问。如果您要大修数据完整性程序,那么也可以是查看数据安全协议的好时机,反之亦然。无论您使用数据构建什么,完整性和安全性都是其中的重要部分。
商业联合会数据分析专业委员会