var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

提高数据仓库速度的行之有效的方法

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-06-04

在克服数据存储障碍的同时,组织还必须找到提高渲染性能和可视化速度的方法

以便更快地获得见解,从而提高业务效率,寻找可减少可视化时间的数据管理工具是BI敏捷性和响应能力的下一个重大挑战,并且可以通过正确的方法来解决,改善仪表板运行时间并提高数据仓库整体性能的有效方法是优化分发和排序键,压缩查询和视图实现优化,在某种程度上,这就像从运作良好的实体仓库中借鉴实践,以了解他们如何移动大量库存以节省时间和金钱学习订购模式,将畅销的物品放在装卸场附近,并将物品作为产品移动人气变化。

 

分布和排序键

分发密钥对于优化至关重要,因为它直接影响性能并定义如何在节点之间分配数据,自动化过程会根据一段时间内的“学习数据”或预期数据查询模式来指定分发密钥,排序键确定节点内数据的分布,或根据所学数据做出数据库决策。用户定义的过滤器还可以显着提高性能,当其他工具在查询构建过程中利用某些平台时,某些平台可以通过内部处理在主键和外键上添加约束。这可以由用户通过用户界面或通过算法来标识具有id / id_pattern值的字段来实现,根据结果,系统可以将字段定义为主键/外键(PK / FK)。

 

在实体仓库中,仓库经理查看今天上周和上个月的发货量并将其与上一年进行比较

那些销量旺盛并希望继续保持旺盛销量的产品(在停机时间内)被移至工厂附近,成本就是人力–时间乘以薪水,分配键和排序键执行“产品”(信息)的虚拟移动,从而减少了运行时间,压缩是减少存储数据大小的有效方法,通过减少数据大小,由于磁盘I / O的减少,可以提高查询性能,使用的数据越多,压缩就越关键,一些平台处理初始副本上的压缩,继续监视数据,并根据需要调整压缩配置,尤其是在更改或引入新数据段之后,通过定期通过压缩进行优化,可以改善数据集对渲染和可视化请求的总体响应能力。

 

在仓库中可以将压缩与从架子上去除死角进行比较

随着时间的流逝,产品销售会波动,但是货架上的空位会浪费金钱,冷凝式架子可增加存储空间,而不必增加架子数量,数据存储具有相似的成本–占用空间越小成本越低,提高性能的另一种方法是跟踪用户的查询,特别是用户对联接中表的使用以及ON子句中字段的跟踪,基于此信息,某些平台会定义适用于每个表和数据库的分发键和样式,此过程允许将来的查询更好地利用分发键,并更轻松地访问来自不同节点的数据。例如,在连接特定表时经常使用的字段将成为分配键的统计上可靠的候选对象,还可以动态定义查询以进行缓存,在某些平台上执行的每个查询都通过代理服务器。分析查询是出于元数据的目的,包括执行时间,行数执行次数等,以及一种学习算法,用于评估汇总的统计信息,并决定对查询进行缓存或将其从缓存中删除。在这种情况下,整个基础架构都利用了内存层,这使它可以在数据库存储和代理外部内存之间动态分配缓存的结果。

 

查询就像仓库中的“老家伙”

你问一个东西在哪里,他知道,因为问了他多次相同的问题,如果有人问他一个新问题,他可能不得不考虑一分钟,但是一旦找到答案,他就会记住下一次,查询就像虚拟的老家伙;您可以问新孩子什么地方,他会找到的,而老家伙会在很短的时间内找到它。

 

物化视图为了优化查询的实现,应将查询信息与系统在测试期间观察到的查询模式的分析相结合

然后系统可以利用缓存的结果和实例化视图两者,并基于从查询中收集的用户统计信息,决定将所有或部分查询缓存在内存中,通过分析使用情况,运行时间和频率,应用程序可以决定应实现或缓存哪些查询或视图,有一些平台可以决定查询是否完全缓存在内存中,是否隔离或是否保存了聚合查询,在隔离查询的情况下,系统可以使数据库将其从内存中拉出,而不是完全从数据仓库中检索数据,结果用户体验到明显更快的查询回报,该决定可以在查询优化中产生显着差异,可以使用以下方法来实现集料的实现:

 

物化视图–视图的结果被计算并保存为表(每次新数据进入该视图所依赖的表时都会刷新)

物化查询(缓存的结果)–应用程序重新计算经常使用的查询,并将结果保存为表格,通过使用代理,只要用户使用相同的查询,他们就可以识别它并自动查询具体结果,随着数据集的不断增长和数据段的重复,优化变得越来越重要,如果未进行优化,则不断增长的数据集可能会导致性能下降并阻碍数据可视化,基于平台的优化可帮助用户避免此问题。

 

大多数现代仓库的商品归类为“购买此产品的人也购买了这些产品

如果您要购买电视,则很可能需要将壁挂支架与扬声器和蓝光播放器一起放在仓库的同一部分中。物化视图是此的虚拟实现。这几乎是您要的一切的一站式服务,由于当今企业的时间有限且责任越来越重,数据科学家必须越来越依靠集成工具来自动生成数据库查询,而不是依靠他们编写或理解SQL的能力,不仅可以提高数据仓库的速度,而且在使用一个开始学习数据并根据查询得出的信息采取行动的平台时,这是不可避免的,随着这些流程的运行以及平台的不断学习,结果是连续的,并显着提高了性能。

 

Prev article

AI如何改变IT服务采购的游戏规则

Next article

为什么“真正”的实时数据很重要处理静态数据而不是动态数据的风险

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务