如何判断面向GPU的数据库是否适合您的大数据项目
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-01-28
但这也有点乐观,因为GPU非常适合依赖于高度并行化矩阵数学的工作负载,但不一定适合于更大范围的大数据应用程序,大数据中GPU的兴起,已经存在数年了,赢得了奖项,因为它在重要的部署中取代了Oracle和其他行业重量级人物,有什么作用?尝试在2015年发送超过1500亿封邮件,同时减少7,000万英里的行驶里程,从而节省700万加仑的燃油。所有这一切,同时从全美各地邮局和处理设施的13,000多名并发用户中的213,000多台扫描设备中提取数据,同时还结合了地理空间数据来预测实时事件,这意味着其性能比2000年提高了200倍,一直在使用的关系数据库。
虽然看起来多样化,但这些工作负载却触动了GPU的优势
GPU擅长于需要大量算术密集型计算的任务,例如视觉模拟,超快速数据库事务,计算机视觉和机器学习任务,找出适合GPU的位置然后,诀窍是找出在哪里应用面向GPU的数据库,因为它们不适用于所有大数据应用程序,毫无疑问GPU可以为某些工作负载提供优势,尤其是深度学习之类的东西,GPU对于深度学习非常有效,因为问题可能分成许多小操作,每个小操作在大量内核上同时执行。
单个GPU是针对矩阵数学操作进行了优化的数千个内核
深度学习是许多可并行性很高的矩阵数学,因此不足为奇的是深度学习,就像计算机图形学一样,取决于许多完全适合GPU的可并行化矩阵数学,除了深度学习和数据可视化之类的东西以外,久经考验的面向CPU的数据库通常是更好的选择,对于深度学习之外的领域,与使用CPU相比,使用GPU的总体成本/收益仍然存在公开辩论,像英特尔这样的公司在以低成本封装CPU电源方面非常高效,而且围绕CPU的行业基础设施仍然使GPU方面的同类优势相形见,换句话说,利用CPU趋向于以的生产率成本来降低成本,并且对CPU的行业支持也更多,此外大数据的某些方面只是使它们更好地适合CPU。
例如数据处理查询的其他领域主要是联接和混洗
将整个集群中的数据重新分区到另一个键上,这些操作在CPU上非常有效,大多数软件不能利用这种并行度,也不能在GPU的有限指令集上运行,使其成为深度学习型应用程序的理想解决方案,但不适用于其他类型的应用程序工作量,当然随着时间的流逝,我们很可能会看到企业将这两种方法结合在一起,使用它们发光的GPU和其他地方的CPU,随着数据库变得越来越普遍,数据库也有可能开始为GPU提供更多支持。
为什么数据科学只是小学数学和写作
事实证明,机器不是非常善于解释数据,由于人们的偏见(而且我们在选择收集的数据和我们提出的问题方面都存在偏见),以及我们的分析可能存在的缺陷,人们对于理解数据仍然至关重要。关键在于找出人与机器之间的正确平衡,我将人与机器的共生体称为半人马智能,人的头脑永远是人的,人们以自己的精湛才能做事-好奇心,创造力和同情心。机器也尽力而为,大规模学习,处理数据并快速回答问题。机器答案需要人为解释才能将相关性转化为因果关系,人们整理数据并选择正确的问题,双方相互促进,半人马座骑着人与人为的智慧浪潮,这是常识,关于大数据可能性的激动之情再次缺乏常识,这种兴奋是有保证的,但仅在认为的情况下,才是人类解释的伴侣,您需要机器和人类智能才能从数据中获得收益。
您还需要人的才智来构建和构建复杂的分布式系统
实践证明这非常困难。它将使许多工程师在未来几年内受雇,数据驱动的失业,然而其他人却不是那么幸运,虽然我认为机器将取代许多人类工作是不可避免的事实,但这并不一定是一件令人愉快的事情,我们应该记住,每台机器在特定方面都有其优势(它具有数据和算法),人类是一门通用的机器,可以同时完成很多事情,但是对于那些不是特别擅长一次完成很多事情的人来说,单用途机器可能会证明是现成的,卓越的替代品。
技术曾经如此,但现在可能从未如此
在过去收入高业务遍及全球的公司几乎总是拥有大量资产和员工,但是拥有巨大市场估值和市场份额的数字公司通常资产很少,也许更具说服力的是,随着像公司拆除旧工业,他们正在使用数据将人们变成功能有限的齿轮,而这些齿轮的收益却很小如果有的话例如,健康保险,残疾等,这只是在提醒我们,当我们进行编码时,尤其是在我们这个日益数据驱动的世界中,我们需要对无论是患病还是患病的生活都保持敏感。
物联网的安全海啸来了,您准备好了吗?
物联网中存在着便利与隐私之间的巨大拉锯战,设备制造商还没有做足够的事情来保护隐私,为物联网的安全海啸做准备的演讲的重点,虽然与物联网相连的设备通常会带来更高的便利性或生产力水平,但它们却带来了新的安全威胁和隐私问题,这是一个通过Wi-Fi连接的芭比娃娃,被证明容易受到黑客攻击,这对儿童安全的明显影响尤其令人恐惧。
大数据和物联网对56%的组织至关重要
但是连接的设备不会很快消失,制造商将继续在其设备中嵌入互联网有两个原因,个原因是它允许制造商在不派遣技术人员的情况下触摸设备并执行更新或更改,从而减少了开销,而且它使他们能够访问目标数据,这可以帮助他们为客户定位更多的商品和服务,一个很大的问题是,在大多数情况下,用户对安全性的考虑不够充分,安全性和隐私性已经很棘手,但是消费者在购买新产品时已经准备好用自己的隐私掷骰子,当消费者看到物联网的潜在便利时,他们通常不会考虑这些设备带来的新威胁。
这是否意味着公司应该在其终端上做更多的事情来保护设备?
芯片和设备制造商需要就可以实施并达成共识的标准进行合作,以提高这些设备的安全性,而且尽管工业互联网协会已经就安全芯片标准进行了一些讨论,但它们尚不可用,芯片制造商需要做更多的证明,以确保芯片是它所说的,并且正在做应该做的事情,他们还需要更多的可见性,以便可以保证何时进行更新并确认确实发生了更新,证明也可能有助于更新周期,制造商通常已经具有更新系统,以适应消费者对新功能的需求,而且有了更好的证明,它可以帮助设备验证这些更新是否来自已知来源。
商业联合会数据分析专业委员会