成为您公司的数据和分析专家
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-01-22
如何保持大数据湖畅通无阻
如果没有良好的清洁和归档做法,数据湖将变成密集,阴暗的地方,这里有一些防止这种情况的技巧,大数据的四个V是数据的数量,种类,速度和准确性。所有这些都是数据架构师在开发大数据管理策略时必须意识到的重要因素,但是随着公司中成群的大数据继续呈指数增长,它们开始转移到停滞甚至有毒的数据湖和存储库,因为大量数据被抛入并混入了这些数据保留池,在极端情况下大批新数据几乎没有经过审查就被扔进了数据保留区,这些数据的可见性和从中获取价值的能力几乎是不可能的,这些数据湖云中的“水”,数据架构师和开发人员看到,以敏捷的方式处理数据变得越来越困难。
这些被污染的数据湖口袋会产生第五个V,现在是时候添加大数据了粘度
通常使用粘度来描述液体的厚度,例如蜂蜜的粘度比水高得多,您可以看到与数据湖的联系开始因污染加剧而产生,这种污染是由于围绕数据清理和归档的不良做法而导致的,这些数据开始变得混乱和“凝结”,以致无法导航,数据架构师可以采取以下步骤来清理这些数据,以便使其再次可用-以及CIO如何帮助他们。
1.必须建立一个业务案例
清理数据,或寻找重新分类和修复数据的方法,是一项后台任务,它不会立即减少运营支出或增加收入,因此像这样的项目可能会花费很多高薪人员的时间,因此在不一定了解或欣赏IT的高管中将不会受到欢迎。但是CIO必须出售它。
商业利益是:
1、如果您的数据干净且敏捷,则可以加快业务分析的上市时间
2、精心管理的数据可改善法规遵从性和治理
3、数据安全性和安全性将得到改善,因为通过整理数据,您还可以查看访问权限和数据存储安全性准则
4、如果您定义数据保留规则并丢弃无用的数据,这些无用的数据会增加内部或云存储成本,那么节省成本可能会成为因素。
2.数据架构师应考虑建立湖泊链
当按主题领域组织时,单独的数据湖将很有帮助,例如可能存在一个用于销售和营销的数据湖,第二个数据湖可能被制造和工程利用,三分之一可能用于金融,当需要汇总来自这些不同数据源的数据时,可以通过从这些原始数据湖中进行聚合来创建单独的“构建”数据池,但是可以保持原始数据湖的完整性,分布式数据体系结构可以通过设置多个数据库和/或系统分区在单个服务器上完成;或者可以在多台服务器上完成,无论哪种方式可能都需要更多的处理开销才能将数据隔离在原始数据主题湖中,但是此值由您获得的数据敏捷性和组织返回。
3.必须规范这些数据湖共享的数据
如果没有良好的清洁和归档做法,数据湖将变成密集,阴暗的地方,这里有一些防止这种情况的技巧,大数据的四个V是数据的数量,种类,速度和准确性。所有这些都是数据架构师在开发大数据管理策略时必须意识到的重要因素,但是随着公司中成群的大数据继续呈指数增长,它们开始转移到停滞甚至有毒的数据湖和存储库,因为大量数据被抛入并混入了这些数据保留池,在极端情况下大批新数据几乎没有经过审查就被扔进了数据保留区,这些数据的可见性和从中获取价值的能力几乎是不可能的,这些数据湖云中的“水”,数据架构师和开发人员看到,以敏捷的方式处理数据变得越来越困难。
这些被污染的数据湖口袋会产生第五个V,现在是时候添加大数据了粘度
通常使用粘度来描述液体的厚度,例如蜂蜜的粘度比水高得多,您可以看到与数据湖的联系开始因污染加剧而产生,这种污染是由于围绕数据清理和归档的不良做法而导致的,这些数据开始变得混乱和“凝结”,以致无法导航,数据架构师可以采取以下步骤来清理这些数据,以便使其再次可用-以及CIO如何帮助他们。
1.必须建立一个业务案例
清理数据,或寻找重新分类和修复数据的方法,是一项后台任务,它不会立即减少运营支出或增加收入,因此像这样的项目可能会花费很多高薪人员的时间,因此在不一定了解或欣赏IT的高管中将不会受到欢迎。但是CIO必须出售它。
商业利益是:
1、如果您的数据干净且敏捷,则可以加快业务分析的上市时间
2、精心管理的数据可改善法规遵从性和治理
3、数据安全性和安全性将得到改善,因为通过整理数据,您还可以查看访问权限和数据存储安全性准则
4、如果您定义数据保留规则并丢弃无用的数据,这些无用的数据会增加内部或云存储成本,那么节省成本可能会成为因素。
2.数据架构师应考虑建立湖泊链
当按主题领域组织时,单独的数据湖将很有帮助,例如可能存在一个用于销售和营销的数据湖,第二个数据湖可能被制造和工程利用,三分之一可能用于金融,当需要汇总来自这些不同数据源的数据时,可以通过从这些原始数据湖中进行聚合来创建单独的“构建”数据池,但是可以保持原始数据湖的完整性,分布式数据体系结构可以通过设置多个数据库和/或系统分区在单个服务器上完成;或者可以在多台服务器上完成,无论哪种方式可能都需要更多的处理开销才能将数据隔离在原始数据主题湖中,但是此值由您获得的数据敏捷性和组织返回。
3.必须规范这些数据湖共享的数据
如果存在数据重叠,则数据架构师必须具有解决问题的方法,例如来自描述同一数据片段的两个不同系统中的两个不同术语,或包含不同值的数据元素,目标是拥有经过整理和管理的干净数据,当数据经过整理,管理和轻松地与其他干净数据湖中的数据进行聚合,以进行跨越多个主题领域的分析查询时,使用此数据的应用程序将变得更加敏捷,因为您不再需要再为它们提供泥泞的数据了,重要的是您已将公司定位为在分析方面取得进步,因为数据的质量不再使您受挫。