400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

我们如何做到对数据进行简化从而起到优化的作用

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-07-27

优化数据仓库的价值通常不会引起争议

小化成本和提高绩效是所有首席信息官“待办事项”清单上的支柱。但这只是众所周知的冰山一角。化可用性。提高数据质量。限制数据异常。消除折旧费用。这些挑战在坚持不适应的技术并受严格的硬件规范限制时变得越来越困难。

 

过去的数据仓库

让我从一些角度来看,不久之前当今的许多技术(例如大数据分析,用于处理以及云计算和存储引擎)都不存在,但事实证明,平衡高质量数据的可用性与清理和加载信息所需的努力之间存在着平衡,不断的挑战每个月IT部门都会负担将数据加载到数据仓库中以供业务分析的负担,但是加载本身通常需要几天的时间才能完成,并且如果加载失败,或者更糟的是,数据仓库损坏了,恢复工作可能需要数周的时间,到上个月的错误得到纠正时,该月的数据需要加载。

 

这是一个无休止的循环,几乎没有任何价值

仓库不仅信息过时,而且还与数据加载和数据恢复过程捆绑在一起,因此终用户无法使用它,随着当今数据量不断增加,数据源范围广泛以及企业对分析中的实时数据的需求日益增加等挑战,数据仓库需要成为灵活,灵活的信息存储库,而不是工作量大的存储库。处理能力。

 

当今的数据仓库需求

在当今时代,CIO可以放心地知道,优化数据仓库不必如此艰巨,借助大数据分析的可用性,进行的快速处理以及看似无限且即时的云可扩展性,可以肯定有许多方法可以用来解决优化难题,但是我发现简化数据仓库优化并提供的投资回报的有效方法是从仓库本身中删除不必要的处理即数据处理,转换和清理通过消除ETL流程的固有负担,仓库几乎立即提高了可用性和性能。这通常称为卸载ETL”

 

这并不是说不需要对数据进行处理,转换和清理

相反数据质量至关重要,但是依靠提供数据的相同系统来负责处理和转换数据正在抢夺仓库的目的;为终用户提供及时,准确,可靠和的分析,并减少停机时间,通过利用Spark及其内存处理架构,您可以将ETL的负担转移到为此类工作负载设计的其他内部服务器上,甚至更好的是,将处理转移到云的可扩展基础架构,不仅可以优化数据仓库,而且还可以通过消除不必要的硬件资本开销来终削减IT支出。

 

大数据与机器学习沙箱

在新的大数据和机器学习沙箱中,一个这样的示例说明了ETL卸载的有效性,IT可以与业务分析师合作执行预加载分析-在将标准数据加载到仓库之前以原始格式分析数据,而所需的时间仅为标准ETL的一小部分,这不仅使业务用户可以在将数据加载到仓库之前洞悉数据的质量,还使IT人员可以使用某种安全检查点来防止不良数据破坏仓库并造成其他中断和挑战。

 

优化数据仓库肯定会带来很多挑战

但是有时候的解决方案不一定是复杂的,这就是为什么提供行业领先的数据质量,本机连接性和基于订阅的价格可承受性的原因,从而使您可以快速启动优化策略。此外,数据集成工具必须与其集成的系统一样灵活,因此利用面向未来的架构意味着您永远不会因的技术趋势而过时,让您放心,今天的解决方案不会成为明天的问题。

 

 

Prev article

我们对敏捷数据湖的定义是怎样的?

Next article

怎样才能实现数据科学:获取质量数据?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务