400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

如何在数据湖中创建良好的质量周期

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-07-06

数据湖通过将更多的数据交给更多的用户,比以往任何时候都更快地转变了企业的决策

与这种更快的数据访问同样重要的是,数据湖还可以改善提供给分析师的数据质量,数据湖实施得当,可以使业务用户不断清除不良数据,并通过标签,元数据和创建新数据集来共享他们对数据的见解,如何创建一个“良性循环”,使数据湖的质量随着使用时间的延长而不断提高,以及数据湖管理平台如何使这一循环成为可能。

不仅仅是数量(速度),还是质量(更好的数据)

通过消除在加载数据之前就对数据进行结构化的要求(例如在数据仓库中),数据湖消除了与定义模式以及使用常规提取,转换和加载(ETL)将数据映射到该模式相关的时间和精力,工具数据湖通过将大量数据预先放置在数据分析师和业务用户可及的范围内,还消除了等待IT提供数据的数周或数月的时间,而且由于数据湖基于Hadoop,因此它们以诱人的价格提供了大规模并行处理的性能优势。

经常被忽视的是数据湖实际上帮助组织加速了不仅向分析师提供数据的速度

而且还加速了数据质量的改善的能力。这种更快的“质量时间”由三个功能驱动:

1、正确实施的数据湖使业务用户能够更好地理解数据,以便在从原始就绪的过程中更早发现并解决数据问题。这种早期访问使他们能够更快,更有效地查找,建议甚至更正数据。这样可以实现更快,更准确的分析,并能够更快地做出更好的业务决策。我们发现,在对数据进行统计分析后,用户可以充分利用此早期访问权限。理想情况下,此分析是针对给定数据源中的所有数据(每个记录和字段)进行的,以为业务用户提供到达湖中的每个新数据源的特征,一致性和完整性的准确图片。通过告知用户每个数据应该代表什么。

2、正确实施的企业数据湖可确保任何人对数据的任何改进。这包括数据清理,数据准备,新数据集的创建或业务元数据的添加,从而提高了整个企业中数据的一致性,并消除了重复的数据清理,转换或配置工作。用户还共享元数据,这些元数据可以捕获数据质量及其适当使用的指标。通过使整个企业中的用户可以轻松,自动地使用并利用共享的数据集,数据湖可以简化协作并确保准确性,因为各个用户都可以利用从一组一致的数据清理,概要分析和转换过程中生成的相同数据。

3、数据湖通过创建数据改进的良性循环来加速企业数据的改进,其中湖中更多数据的可用性吸引了更多改进该数据的用户,从而随着时间的推移吸引了更多的用户,更多的改进和更多的数据。这是因为湖中存储的数据越多,用户使用用户就绪的数据集以及众包元数据和标签来准备和增强数据的机会就越大,相比之下数据整理工具没有提供此好处,因为它们仅管理部门或一小组用户的数据集,从自己动手,定制开发的数据湖中也无法获得这些好处,因为它们使非技术用户难以轻松地向湖中添加新数据,并使用新的数据集或元数据对其进行增强。

数据湖的优势之一是它们能够在特定数据集从“原始到就绪”的连续过程中保持多个副本的能力。通过在此过程的每个阶段保留数据,并为用户提供搜索,选择和检索恰好适合其独特业务需求和技能集的数据的工具,数据湖可满足多种业务需求。

要找什么为了更快地提高其企业数据的质量,客户应寻找具有以下功能的数据湖

1、图形用户界面和元数据层具有足够容易理解的细节,使没有深厚技术技能的用户可以找到所需的数据。

2、业务用户具有直接清理,增强和准备数据的能力。这些活动可以包括,例如,创建新的数据集,汇总或派生的度量。当用户添加此新数据和数据视图时,数据湖应始终保留原始数据的副本,保留数据集的沿袭,并保留从原始到就绪的所有数据记录。

3、允许业务用户创建和维护业务元数据的工具,包括使用众包通过注释和标签添加含义和上下文。

4、企业数据中心所需的治理和安全性,可以使所有用户(不仅仅是使用数据整理方法的有限用户)共享他们的见解和对数据的改进。这意味着支持轻松透明地创建和监视企业级治理和安全性流程,以便数据湖可以用作分析数据的中心而非本地。

需要:速度和质量正确的数据转换和管理对于允许用户轻松查找和挖掘多个数据源

随时间推移对其进行改进并确保其安全至关重要,这些功能一起使无缝分析自助服务和协作成为可能,从而加快了更好的业务决策速度,收益来自更快,更准确和更深入的业务决策。




Prev article

深度学习在医疗保健和生命科学领域起到什么样的作用?

Next article

大数据分析的未来将如何发展?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务