var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

使用健壮的提取和转换框架构建敏捷数据湖

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-07-27

当前数据挑战:

从孤立的数据存储和庞大的数据增长到昂贵的平台和缺乏业务洞察力,当今企业面临着许多数据挑战。让我们分别看一下这些:

 

1.孤立的数据存储

几乎每个组织都在为分散在多个系统和数据库中的孤立数据存储而苦苦挣扎。许多组织拥有数百个(甚至数千个)数据库服务器。为了方便起见,他们可能为不同的组(例如财务,人力资源,供应链,市场营销等)创建了单独的数据存储,但是由于结果不一致,它们在大量时间上苦苦挣扎,我在多个公司中亲眼目睹了这一点:他们无法确切地说出他们拥有多少活跃客户,或者每件商品的毛利润是多少,因为他们从拥有自己版本的数据,计算和关键指标的组中得到不同的答案。

 

2.海量数据增长

毫不奇怪,所有企业中的数据都呈指数增长,早在2002年,当我们首次建立太字节存储库时,我们的团队就非常兴奋!但是今天,即使是PB也仍然很小,数据增长了数千倍,在许多情况下还不到二十年,这使得组织不再能够使用传统数据库来管理所有数据,传统系统是垂直扩展,而不是水平扩展,因此,当我当前的数据库达到其容量时,我们无法添加其他服务器进行扩展;我们必须叉进新的和更高容量的服务器。但是即使那样也会有局限性。IT陷入了这种深层的网络,无法高效地管理系统和数据。

 

3.昂贵的平台

传统的关系MPP数据库是基于设备的,并且成本很高。在某些情况下,随着数据量从TB迅速增长到EB,公司每TB支付的费用超过几十万元,并且无法跟上这一费用。

 

4.缺乏业务洞察力

由于上述所有挑战,业务仅专注于描述性分析,例如对昨天,上个月,去年,去年等情况的后视视图,而不是专注于预测性和描述性分析以查找关键下一步的见解。

 

解决办法是什么?

一种可能的解决方案是将所有不同的数据源整合到一个称为数据湖的单一平台中,许多组织已经开始走这条道路,但惨败。他们的数据湖变成了难以控制的数据沼泽,数据沼泽是什么样的?这是一个类比:当您去公共图书馆借书或录像时,要做的件事是搜索目录,以查找所需的资料是否可用,如果可以的话,在哪里找到,通常您会在几分钟内进出图书馆,但是相反假设您去图书馆时没有目录,而书堆满了整个地方–一个区域是小说,而另一区域是非小说,依此类推,您将如何找到想要的书?你会再去那个图书馆吗?许多数据湖都是这样,组织中的不同组将数据加载到其中,而没有目录或适当的元数据和治理。

 

数据湖应该更像一个数据库,其中每个数据集都被索引和分类

并且应该有一个网守来决定哪些数据应该进入该湖中以防止重复和其他问题。为了使此操作正确发生,我们需要一个摄取框架,该框架的作用类似于以下所示的漏斗。

 

数据摄取框架应具有以下特征:

1、一个单一框架,可将所有数据提取一致地执行到数据湖中。

2、元数据驱动的体系结构,捕获要摄取的数据集,何时摄取以及需要摄取的频率的元数据;如何捕获数据集的元数据;以及连接到数据源系统所需的凭据是什么?

3、模板设计体系结构,用于构建通用模板,该模板可以读取框架中提供的元数据,并以批处理和实时方式自动处理各种格式的数据的提取过程

4、跟踪所有数据提取活动的指标,事件和通知

5、一种统一的方法来捕获所有数据摄取以及技术元数据,数据沿袭和治理

6、通过搜索和目录进行适当的数据治理,以在数据湖中查找数据

7、数据剖析以收集数据集中的异常,以便数据管理员可以查看它们并提出数据质量和转换规则

 

现代数据架构参考架构

数据湖是现代数据体系结构解决方案的基础结构,在该湖中,它们成为一个平台,可用于放置所有不同的数据源,并且:暂存原始数据,用于数据管理员的配置文件数据,应用转换,移动数据并运行机器学习和高级分析,终因此组织可以找到深刻的见解并进行假设分析。

 

传统的数据仓库与传统的数据仓库不同

在传统的数据仓库中,只有经过精心挑选才能看到数据,而使用现代数据体系结构,企业可以通过框架提取新的数据源,并在数小时和数天而不是数月和数年内对其进行分析,在本系列的下一部分中,我们将讨论“什么是元数据驱动的体系结构?” 并了解它如何使组织建立强大的摄取和转换框架,以构建成功的敏捷数据湖解决方案。

 

CPDA企业内训

https://www.cpda.cn/trainning/

 

cpda项目数据分析师为什么要更名?

https://www.chinacpda.com/question/4504.html

 

海南智企数据分析师事务所

https://www.chinacpda.com/shiwusuo/14202.html

 

王兴海老师 高级经济师

https://www.chinacpda.com/shizi/9433.html

 

用数据改变人生获得CPDA证书仅是一个开始

https://www.chinacpda.com/shouquanzhongxin/14854.html

 

大数据专业就业前景及就业方向如何?

https://www.chinacpda.com/wenti/11706.html

 

CPDA数据分析师学习方式和课程体系

https://www.chinacpda.com/xuexiarea/18089.html

 

数据分析师的职业进阶之路

https://www.chinacpda.com/zixun/4048.html

 

《大数据人才培养体系标准》正式发布!

https://www.chinacpda.com/dongtai/9669.html

 

CPDA数据说给你带来精彩的视频案例讲解

https://www.chinacpda.com/videocenter/

 

数据分析师考核

https://www.chinacpda.com/examine/

 

数据分析师职业规划

https://www.chinacpda.com/career/

 

CPDA数据分析师授权中心

https://www.chinacpda.com/train/

 

数据分析相关动态

https://www.chinacpda.com/data/?page=5

 

数据分析师为您解答更多问题

https://www.chinacpda.com/qa/

 

数据分析案例展示

https://www.chinacpda.com/case/

 

查找您周边省份授权培训中心:

https://www.chinacpda.com/train/

 

2020CPDA数据分析师线上报名:

https://www.chinacpda.com/baoming.php

 

CPDA数据分析明星导师:

https://www.chinacpda.com/startutor/

 

CPDA数据分析师培训优秀学员:

https://www.chinacpda.com/student/

 

免费客服热线:400-050-6600

商业联合会数据分析专业委员会

 

 

 

Prev article

大数据辩论:批处理与流处理

Next article

大数据的无服务器架构

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务