var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

关于虚拟化大数据的5个常见误解

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-06-24

随着企业意识到如果对其进行捕获和分析,数据中蕴藏的未开发潜力

世界各地的开发团队便开始构建应用程序以利用大数据的力量,由于开发团队依靠将应用程序推向市场的速度而生存和死亡,因此他们需要能够快速配置或更改这些新环境,并且他们使用虚拟基础架构来加快工作速度。如今,随着云计算的兴起和这些大数据应用程序的主流化,关于虚拟化大数据仍然存在一些顽固的神话,我们将探讨五个常见的剩余神话,并一一消除它们。

 

误解1:虚拟化大数据应用程序适合开发但不适用于生产

确实,软件工程师在过去几年中已经使用虚拟基础架构来开发大数据应用程序。但是,这些大数据应用程序现在也已投入生产。虚拟化的应用程序使包括业务分析师和数据科学家在内的各种用户可以同时处理不同的数据分析任务,从而大大提高了这些团队的工作效率。

 

误区二:虚拟化Hadoop会降低性能

对于虚拟化Hadoop性能的误解仍然存在,但是现在应该是一个有争议的话题。自2011年以来,性能基准测试一直显示,在虚拟机上运行Hadoop的性能与在物理机上运行Hadoop的性能相同,甚至更高,结果显示Map Reduce作业完成速度提高了12%,Spark / Machine Learning作业完成了10个快百分之。由VMware2016年执行的性能基准表明,Hadoop可在虚拟机上充分扩展,其总体性能与裸机相似,并且在利用群集资源方面具有明显的优势。

 

误区三:您需要使用SAN来虚拟化Hadoop,但是Hadoop可以使用SAN吗?

这些神话是相关的,所以让我们同时解决它们。首先,人们误认为虚拟机的基本功能需要SAN。企业通常使用非共享的直接连接存储在连接到该存储的虚拟机中托管Hadoop数据,空间中的供应商既支持又建议直接连接存储,以提高性能并节省成本,其次如果您想利用诸如物理SANVSAN等虚拟SAN的共享存储解决方案,那么Hadoop不仅可以工作,而且许多用户更喜欢使用SAN来开始他们的个Hadoop实验,这通常是因为它是核心是其基础架构的一部分,并且在企业首次开始采用Hadoop时就已经存在。

 

误解四:您只能运行传统的Hadoop堆栈,而不能运行,的技术

Hadoop在许多方面已成为大数据的统领,但这是一种误导,Hadoop始于十多年前,它的意思是Hadoop分布式文件系统和其他一些工具,例如MapReduceHivePig,可以从中使用数据,如今它涵盖了许多项目,而其他大数据项目经常被拖入网络,但是Apache SparkHadoop不同(尽管它与Hadoop集成在一起),并提供了更快,更有效的方法来分析不断增长的数据量,前面引用的性能基准测试文件显示了在虚拟机或裸机上运行的Apache Spark的可比性能,在相同硬件组中的虚拟机上运行的单独群集中,还可以从多个大数据供应商中找到运行不同版本的HadoopSpark的企业用户,这很普遍。

 

误解五:热门技术是容器,因此您应该使用它代替VM

Docker这样的容器技术目前正炙手可热,这有充分的理由。由于它易于使用且重量轻,因此它已成为受尖端开发人员欢迎的选择。它们已迅速成为许多开发公司的标准操作程序。但是,重要的是要了解使用具有大数据策略的容器的正确用例。容器适合容纳HadoopCompute端,即执行算法的部分,例如YARNNodeManagersSparkExecutors,容器要求您将数据存储区分开到另一个位置。如今,将数TB的数据保存在容器中并不是公认的明智之举,因此当对此应用虚拟化时,容器是在虚拟机中执行的,要么与虚拟机一对一,要么一对多,VM在哪里检索数据,如果将高级别的安全性作为企业重点,则通过虚拟机将关注点和用户隔离是的,虚拟机和容器的结合将成熟的运营管理带来了在生产中处理容器的挑战。

 

我们盯着关于虚拟化大数据的顽固的神话,并依次处理每个神话,一个简单的事实是,现在在虚拟化基础架构上运行大数据应用程序已司空见惯,并已成为企业中的事实上的标准。

 

Prev article

大多数大型企业和运营商都在运行大数据项目

Next article

2020年《数据分析》行业特刊第二期

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务