这7个数据建模错误是否会影响您的分析?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-03-04
在对数据进行建模以进行分析时所犯的一些常见错误
如果忽略这些错误,则可能会破坏您的分析并阻止您获得所追求的见解,让我们从3个常见的数据建模错误开始,无论您使用哪种工具或技术,都应避免这些错误,然后转到4个在使用多维数据集和旧式BI平台时成问题的错误。
避免常见的建模错误
没有明确的行动计划就开始在为数据分析建模时,例如数据仓库,规划目标是至关重要的。造成这种情况的原因有多种,但主要主题是,如果没有目标,则无法有效使用分析资源,设计允许业务用户调查Web流量和选择率等领域的数据模型与用于分析产品销售的模型大不相同,实践是为要进行分析的每个区域规划,设计和分配资源,这应该在BI项目计划阶段以及全面的需求确定过程中完成,在实施对分析目标的更改时,您会注意到性能,安全性和可行性方面的显着改善。
有可能在一个资源中包含太多数据
使用旧版工具可能会导致分析和查询时间变慢。但是即使使用诸如平台,该平台已针对处理大型且分散的数据集时的性能进行了优化,您仍要小心避免存储问题,数据重复和不必要的开销,另一方面,如果不包括回答业务目标中列出的问题所需的所有数据,则几乎会变得更糟,规划的这一步骤将允许您确定分析模型的总体目标,并确保为每个资源包括正确的数据。
代理键使用不足
当将来自多个来源的数据组合在一起进行分析时,一种确保数据具有标识符的流行策略是提供代理密钥,但是选择使用代理密钥并不总是必要的,也不是好的做法,通常数据中的自然键(数据是值)会很好地起作用,这些值是诸如客户ID,社会保险号或已由事务数据用作主键的组合键之类的值,这些键足够稳定以保留主键所需的所有特征,我们之前已经写过有关何时使用代理键的信息,因此出于本文的目的,我们仅需提出几点注意事项就足够了:
代理键不应与数据有任何关系:也就是说,它不应受业务规则约束。这些规则会随着时间变化,并使以前的值变得不。
主键应该相当紧凑:3个或更多字段的大型,复杂的复合键可能很麻烦。如果候选自然键是紧凑且稳定的值(请参见上一点),则可能没有理由添加替代键。
使用代理密钥时:请计划系统始终使用UUID,GUID或MAX()+ 1之类的技术来生成值。这将确保任何代理密钥的确是的。
存在代理键以将行标记为而不提供业务上下文:那就是他们提供的价值,它们不应用于将其显示给终用户的查询。如果是这样,那么您现在已经引入了业务环境以及与不应该存在的数据的关系。重新考虑您的模型和查询。
不良的命名标准
如果忽略这些错误,则可能会破坏您的分析并阻止您获得所追求的见解,让我们从3个常见的数据建模错误开始,无论您使用哪种工具或技术,都应避免这些错误,然后转到4个在使用多维数据集和旧式BI平台时成问题的错误。
避免常见的建模错误
没有明确的行动计划就开始在为数据分析建模时,例如数据仓库,规划目标是至关重要的。造成这种情况的原因有多种,但主要主题是,如果没有目标,则无法有效使用分析资源,设计允许业务用户调查Web流量和选择率等领域的数据模型与用于分析产品销售的模型大不相同,实践是为要进行分析的每个区域规划,设计和分配资源,这应该在BI项目计划阶段以及全面的需求确定过程中完成,在实施对分析目标的更改时,您会注意到性能,安全性和可行性方面的显着改善。
有可能在一个资源中包含太多数据
使用旧版工具可能会导致分析和查询时间变慢。但是即使使用诸如平台,该平台已针对处理大型且分散的数据集时的性能进行了优化,您仍要小心避免存储问题,数据重复和不必要的开销,另一方面,如果不包括回答业务目标中列出的问题所需的所有数据,则几乎会变得更糟,规划的这一步骤将允许您确定分析模型的总体目标,并确保为每个资源包括正确的数据。
代理键使用不足
当将来自多个来源的数据组合在一起进行分析时,一种确保数据具有标识符的流行策略是提供代理密钥,但是选择使用代理密钥并不总是必要的,也不是好的做法,通常数据中的自然键(数据是值)会很好地起作用,这些值是诸如客户ID,社会保险号或已由事务数据用作主键的组合键之类的值,这些键足够稳定以保留主键所需的所有特征,我们之前已经写过有关何时使用代理键的信息,因此出于本文的目的,我们仅需提出几点注意事项就足够了:
代理键不应与数据有任何关系:也就是说,它不应受业务规则约束。这些规则会随着时间变化,并使以前的值变得不。
主键应该相当紧凑:3个或更多字段的大型,复杂的复合键可能很麻烦。如果候选自然键是紧凑且稳定的值(请参见上一点),则可能没有理由添加替代键。
使用代理密钥时:请计划系统始终使用UUID,GUID或MAX()+ 1之类的技术来生成值。这将确保任何代理密钥的确是的。
存在代理键以将行标记为而不提供业务上下文:那就是他们提供的价值,它们不应用于将其显示给终用户的查询。如果是这样,那么您现在已经引入了业务环境以及与不应该存在的数据的关系。重新考虑您的模型和查询。
不良的命名标准
较差的命名标准确实可以使任何与数据相关的活动陷入困境,这是为您的分析资源规划数据模型中至关重要的一步,跳过此步骤会导致很多不必要的头痛和挫败感。从多个来源收集数据时尤其如此,数据的主要基础之一是一致性,这应该扩展到我们为表,列,约束,度量等提供的名称。遵循标准命名约定的好处变得非常明显,如果您尝试创建查询进行分析,但是表和度量的命名方式背后没有任何逻辑,则将很难遵循。
商业联合会数据分析专业委员会