400 050 6600
数据分析师

手机号

验证码

30天自动登录

工业规模大数据的智能使用实现可扩展的数据湖

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-06-30

实现可扩展的数据湖

数据可以分为高温,高温或低温。在大规模并行内存数据库中处理少量业务关键数据热,在低成本层通常是基于闪存的存储和内存中处理大量较少访问的数据热,PB级的原始交互数据和已归档的业务数据驻留在Hadoop等成本较低的分析平台或对象存储中。

 

随着Hadoop生态系统的成熟,像Spark这样的新处理框架支持从实时流传输到机器学习的各种分析用例,充当支持流,批处理和迭代分析的存储层不可知数据联合平台。

 

Hadoop已被证明是用于管理整个组织中数据增长的经济高效的解决方案

与其购买昂贵的“,”机器来执行海量数据工作,不如在整个群集中分配处理能力,可以减轻对昂贵的超级计算机的需求,Hadoop贡献者偏爱数据局部性,并在节点上共同放置计算和存储,每台服务器都增加了额外的计算和存储容量,可以线性扩展,许多人认为这是传统的对称体系结构,其中每个服务器的配置都相同。

 

许多组织的共同愿景是让所有工作负载

分析和应用程序都运行在一个通用数据集上,或者在所有数据和分析工作负载的可伸缩,多租户平台上运行。这项运动始于整合数据,使用Hadoop作为存储库以及处理诸如ETL和预处理数据之类的简单工作负载,Hadoop软件堆栈中的各种功能不仅可以加速ETLELT之外的各种分析用例集,还可以促使组织快速评估和部署这些技术以提升新的业务功能。这些实体依靠企业级性能来运行各种工作负载并整合数据,并能够在通用,灵活的基础架构中扩展这些工作负载。

 

从平台的角度来看,很明显,同类的硬件体系结构无法解决所有必需的功能:

1、低延迟计算和事件处理

2、高延迟计算提取转换负载(ETL)卸载和档案存储

3、大内存计算和内存中数据分析

4HPC计算和深度学习

5HDFS存储

6、档案存储

 

企业现在正在评估传统上仅限于HPC域的硬件选项

范围包括用于并行计算的通用图形处理单元,非易失性内存表示,用于需要低延迟的工作负载的持久性内存以及硬件用于减轻压缩/解压缩任务和存储效率的加速器,随着数据量,种类和工作负载需求的不断发展,这可以实现增长和可伸缩性。

 

企业现在正在评估传统上仅限于HPC域的硬件选项

 

在接下来的几周中,这个关于在工业规模上使用大数据的系列文章将涵盖以下附加主题:

1、数据的指数增长

2、不断变化的数据格局

3、适用于大数据分析的HPE弹性平台

4HPE工作负载和密度优化系统

5HPE WDO解决方案的五个组成部分

 免费客服热线:400-050-6600

商业联合会数据分析专业委员会

 

Prev article

在制造业中实施大数据战略时要考虑的挑战

Next article

大数据和AI即将使您的手机变得智能

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务