您如何解决大数据的大挑战
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-11-02
随着企业开始存储PB级数据(许多存储数据已接近EB级),他们将发现新的挑战
他们可以期待哪些挑战?随着企业开始存储PB级数据(许多存储数据已接近EB级),他们将发现新的挑战,他们可以期待哪些挑战?每10倍的实力都会极大地改变您面临的问题。一条有用的经验法则是,一旦您将标度更改为10的3次方,通常会遇到与小标度相比在质量上有所不同的问题。许多公司发现这很困难。
其中一些问题是高度可预测的
例如,公司将需要10倍的磁盘驱动器来存储10倍的数据。这将消耗10倍的功率,10倍的机柜和10倍的占地面积。通过从100 TB的系统到100 PB的系统的简单外推可以预测到的这类问题并不令人惊讶,人们惊讶的某些事情同样简单,但仍是意料之外的。例如,当您的数据大小急剧增加时,文件(或表或消息流主题)的数量通常会增加相似的数量。这是因为每个对象的平均大小没有增加,或者因为数据大小的增加是由于处理了世界上更多的物理对象,并且每个对象都产生了更多的这些数据对象。
当实施这些系统的团队意识到他们可能已经承诺的技术基础太有限而无法处理真正的大规模问题时,问题就来了
如果他们的体系结构和增长使他们需要十亿个文件,那么它们可能很好,但是如果这个数目增加到一万亿个文件,那么大多数数据系统将完全崩溃,对于技术供应商来说,对文件或主题计数等某些参数说“无限制”时,他们通常会说:“我们从未构建过一个大型系统,也不知道会破坏什么。” 当我们的一位客户不得不进行意想不到的技术交换以超过扩展限制时,我已经不止一次地帮助解决问题。
企业不希望遇到哪些挑战?
的问题之一是,他们不了解扩展数据系统对团队,开发流程和运营流程的影响,假设有人认为拥有有限数量的文件并不是一个大问题,因为每获得几亿美元,他们就可以建立另一个集群,这里真正的问题是,这样的策略隐含了对开发过程和运营预算的隐性税收,开发过程之所以受挫,是因为在如何解决数量不断增长的集群中解决文件寻址方面存在着复杂的问题,对运营的影响是,维护集群系统的管理成本通常与维护的系统数量几乎成正比,而不与每个系统的大小成正比,这意味着随着数据系统的增长,他们将投入越来越大的精力来简单地应对这种增长。
结果通常是紧缩,通常是非常糟糕的紧缩
终使用拙劣的变通办法应对数据增长所带来的技术债务会导致技术破产,并且不幸的是,这种形式可能会引人注目,企业通常无法预期的另一个挑战是数据增长通常是由于从边缘附近的更多事物/客户/工厂/地区中心收集了更多种类的数据而引起的,这通常意味着诸如从所有这些分散的数据系统中检索遥测并将其放到某个地方,使某个系统可以全局查看起作用或不起作用的全局范围之类的事物的范围和复杂性急剧增加。
这方面的一个很好的例子是5G的推广,目前正在全球许多地方进行
5G塔比4G塔在控制自适应波束成形和许多其他技巧上大幅度提高了消费者可以使用的带宽方面要先进得多,副作用是,这些系统需要更复杂的监控,并在边缘附近具有智能才能充分理解所有这些信息,并需要相对透明地移动遥测功能,我们看到许多人对遥测技术的规模如此之大感到惊讶,并且他们需要帮助来制定解决方案。
一个相关的问题是安全分析
在这里,遥测不再关注事物的工作方式,而是更加专注于确定何时有人试图使它们无法正确工作(从而做一些我们希望他们不做的事情),由于黑客通常试图找出新的攻击方式,因此我们无法真正指定捕获攻击所需的所有数据类型,与操作遥测不同,在操作遥测中,我们可能了解许多(如果不是大多数)潜在的故障模式,我们不能假装我们了解攻击者将来会袭击我们系统的所有潜在方式,这使得安全遥测问题更具挑战性。
许多团队无法说明地理范围扩展通常与数据量扩展一样重要
由于遗留系统通常被设计为完全在单个数据中心的范围内工作,因此,如果您开始时没有良好的数据结构作为系统的基础,那么很难实现这种地理分布。
边缘和核心架构对传统数据中心有何影响?
边缘和核心体系结构重要的含义之一是,将单个数据中心作为单一实体的想法不再有效,数据中心是承载大量交叉连接计算的非常有效的方法,这些计算共享数据并且可能相互之间进行广泛的通信,那仍然是关键任务,但是重要的是要记住,在数据中心进行的业务很少,企业的价值是在与客户和供应商的接口处产生的,这些接口越来越多地生成数据,并要求在该生成点附近进行计算以满足延迟和可靠性的要求,但是需要通过识别整个企业中存在的模式来增强这种本地行动,这种模式只能集中处理。
有必要在当地采取行动,但要在全球范围内学习
由于这种全球性学习的计算成本迅速增加,因此数据中心自然是这样做的地方,是否有任何特定技术(例如AI或机器学习)可以帮助企业管理大量数据?如果ML可以提供帮助,那么这么大的数据量是否就意味着企业必须使用数据样本而不是完整的数据集,这会对ML生成的算法产生负面影响?人工智能和机器学习通常是首先构建真正的大型数据集的理由,如果没有自动驾驶汽车开发对真实世界数据的狂热兴趣(其本质是大规模的机器学习),汽车制造商就不必每秒从全球数百或数千辆汽车中记录几千兆字节的数据-即使经过非常选择性的保留,也会产生数百PB的数据。
机器学习通常可以大大优化用于存储这些大量数据的硬件和软件
这样可以将需要保留的数据量减少几个数量级,实际上正是这种优化背后的事实是,这种自动驾驶汽车开发系统只需要存储数百PB,如果不进行优化,则它们很可能需要数十或数百EB的数据,这将使当前的开发变得根本不可行。
在边缘捕获的许多数据实际上与以前捕获的数据几乎相同
但是确定哪些数据很无聊并不容易,随着正在开发的机器学习系统的复杂性不断提高,它们可用于构建在看到有趣数据时就知道它们的系统,它们可以在数据起源的地方运行,因此将有趣的位带回内核以进行更广泛的使用。
其他形式的数据管理也可以从机器学习中受益
真正的大型数据系统通常有数十,数百甚至数千个开发人员,数据工程师和数据科学家在使用它们,随着人数增加到几个以上,他们开始重复基本任务和分析是很普遍的,举个愚蠢的例子,建立营销模型的多个数据科学家可能都将一个功能集成到他们的模型中,从而体现了潜在客户似乎比他们居住的地方年轻(或更老)的想法,这可能表明一些有趣的倾向以不同的方式行事,让所有这些人开发相同或几乎相同的功能是在浪费精力。
机器学习可用于根据数据对象的形状向数据科学家建议这些常用的功能或分析
在某种程度上,此类建议是有用的,并且已纳入模型中,可以用来表示其他建议,而且这样的数据科学推荐引擎将具有增加对哪种数据和计算对公司有价值的可见性的理想效果,数据结构在处理大量数据中的作用是什么?数据结构的核心作用是使我们的客户能够执行正确的计算,从而在正确的时间,正确的位置和正确的数据上执行正确的业务操作。此外,必须在基本站在阴影中的同时完成此操作,而又不使执行正确计算和采取正确动作的核心任务更加困难,这意味着,如果要成功执行此支持角色,数据结构需要以尽可能简单的方式来协调数据移动,安全性,持久性和访问。
这种简单性的一方面是数据结构必须允许关注点分离
例如在数据生成时,无论生成数据的人都不必考虑如何,在何处或何时使用该数据,相反在使用时分析程序应该能够从任何地方查看所有必要的数据,而不会增加处理数据运动的复杂性,在这两者之间,负责做出任何必要的数据移动的行政责任人不应在意数据的内容。
这样的关注点分离使从事整个问题的这些不同方面的每个人都可以专注于成功解决问题的特定部分,而不必担心其他部分
数据结构的另一个作用是促进多租户,在大规模情况下,至关重要的是,许多应用程序必须能够在共享的大规模数据结构上协同工作,原因之一是成本,大规模地,我们根本负担不起给每个人自己的庞大系统,但是没有那么明显的原因,例如典型的大型数据系统上的个应用程序通常是一个不可靠的应用程序,它的失败几率很小,而很少出现显着且意想不到的巨大价值的机会。
由于具有强大的多租户关系
后续项目经常会出现在前几个项目的部分,并且本质上更具投机性,这意味着它们失败的可能性很高(因为主要的成本是由前几个项目承担的),导致意外的积极结果的可能性更高,此类意外结果通常来自初为不同项目构建的大数据资产的意外组合,如果没有良好的多租户关系以及在不损害现有支持级别协议的情况下共享数据集的能力,这种交叉授粉将永远不会发生。
当企业看到其数据存储需求增长时,您推荐的前三项实践是什么?
为了生存在近期和中期的未来中将面临的数据规模,企业必须
1、通过采用增量数据建模技术,确保其数据处理的前瞻性。
2、从为VM配置存储的想法升级到为基于VM的应用程序和基于容器的应用程序提供可伸缩数据结构的想法。
3、使用多租户和地理分布,无论何时何地都可以限度地利用数据。
4、解决方案及其为企业解决的问题。
解决方案可帮助企业大规模应对数据密集型应用程序的挑战
他们可以期待哪些挑战?随着企业开始存储PB级数据(许多存储数据已接近EB级),他们将发现新的挑战,他们可以期待哪些挑战?每10倍的实力都会极大地改变您面临的问题。一条有用的经验法则是,一旦您将标度更改为10的3次方,通常会遇到与小标度相比在质量上有所不同的问题。许多公司发现这很困难。
其中一些问题是高度可预测的
例如,公司将需要10倍的磁盘驱动器来存储10倍的数据。这将消耗10倍的功率,10倍的机柜和10倍的占地面积。通过从100 TB的系统到100 PB的系统的简单外推可以预测到的这类问题并不令人惊讶,人们惊讶的某些事情同样简单,但仍是意料之外的。例如,当您的数据大小急剧增加时,文件(或表或消息流主题)的数量通常会增加相似的数量。这是因为每个对象的平均大小没有增加,或者因为数据大小的增加是由于处理了世界上更多的物理对象,并且每个对象都产生了更多的这些数据对象。
当实施这些系统的团队意识到他们可能已经承诺的技术基础太有限而无法处理真正的大规模问题时,问题就来了
如果他们的体系结构和增长使他们需要十亿个文件,那么它们可能很好,但是如果这个数目增加到一万亿个文件,那么大多数数据系统将完全崩溃,对于技术供应商来说,对文件或主题计数等某些参数说“无限制”时,他们通常会说:“我们从未构建过一个大型系统,也不知道会破坏什么。” 当我们的一位客户不得不进行意想不到的技术交换以超过扩展限制时,我已经不止一次地帮助解决问题。
企业不希望遇到哪些挑战?
的问题之一是,他们不了解扩展数据系统对团队,开发流程和运营流程的影响,假设有人认为拥有有限数量的文件并不是一个大问题,因为每获得几亿美元,他们就可以建立另一个集群,这里真正的问题是,这样的策略隐含了对开发过程和运营预算的隐性税收,开发过程之所以受挫,是因为在如何解决数量不断增长的集群中解决文件寻址方面存在着复杂的问题,对运营的影响是,维护集群系统的管理成本通常与维护的系统数量几乎成正比,而不与每个系统的大小成正比,这意味着随着数据系统的增长,他们将投入越来越大的精力来简单地应对这种增长。
结果通常是紧缩,通常是非常糟糕的紧缩
终使用拙劣的变通办法应对数据增长所带来的技术债务会导致技术破产,并且不幸的是,这种形式可能会引人注目,企业通常无法预期的另一个挑战是数据增长通常是由于从边缘附近的更多事物/客户/工厂/地区中心收集了更多种类的数据而引起的,这通常意味着诸如从所有这些分散的数据系统中检索遥测并将其放到某个地方,使某个系统可以全局查看起作用或不起作用的全局范围之类的事物的范围和复杂性急剧增加。
这方面的一个很好的例子是5G的推广,目前正在全球许多地方进行
5G塔比4G塔在控制自适应波束成形和许多其他技巧上大幅度提高了消费者可以使用的带宽方面要先进得多,副作用是,这些系统需要更复杂的监控,并在边缘附近具有智能才能充分理解所有这些信息,并需要相对透明地移动遥测功能,我们看到许多人对遥测技术的规模如此之大感到惊讶,并且他们需要帮助来制定解决方案。
一个相关的问题是安全分析
在这里,遥测不再关注事物的工作方式,而是更加专注于确定何时有人试图使它们无法正确工作(从而做一些我们希望他们不做的事情),由于黑客通常试图找出新的攻击方式,因此我们无法真正指定捕获攻击所需的所有数据类型,与操作遥测不同,在操作遥测中,我们可能了解许多(如果不是大多数)潜在的故障模式,我们不能假装我们了解攻击者将来会袭击我们系统的所有潜在方式,这使得安全遥测问题更具挑战性。
许多团队无法说明地理范围扩展通常与数据量扩展一样重要
由于遗留系统通常被设计为完全在单个数据中心的范围内工作,因此,如果您开始时没有良好的数据结构作为系统的基础,那么很难实现这种地理分布。
边缘和核心架构对传统数据中心有何影响?
边缘和核心体系结构重要的含义之一是,将单个数据中心作为单一实体的想法不再有效,数据中心是承载大量交叉连接计算的非常有效的方法,这些计算共享数据并且可能相互之间进行广泛的通信,那仍然是关键任务,但是重要的是要记住,在数据中心进行的业务很少,企业的价值是在与客户和供应商的接口处产生的,这些接口越来越多地生成数据,并要求在该生成点附近进行计算以满足延迟和可靠性的要求,但是需要通过识别整个企业中存在的模式来增强这种本地行动,这种模式只能集中处理。
有必要在当地采取行动,但要在全球范围内学习
由于这种全球性学习的计算成本迅速增加,因此数据中心自然是这样做的地方,是否有任何特定技术(例如AI或机器学习)可以帮助企业管理大量数据?如果ML可以提供帮助,那么这么大的数据量是否就意味着企业必须使用数据样本而不是完整的数据集,这会对ML生成的算法产生负面影响?人工智能和机器学习通常是首先构建真正的大型数据集的理由,如果没有自动驾驶汽车开发对真实世界数据的狂热兴趣(其本质是大规模的机器学习),汽车制造商就不必每秒从全球数百或数千辆汽车中记录几千兆字节的数据-即使经过非常选择性的保留,也会产生数百PB的数据。
机器学习通常可以大大优化用于存储这些大量数据的硬件和软件
这样可以将需要保留的数据量减少几个数量级,实际上正是这种优化背后的事实是,这种自动驾驶汽车开发系统只需要存储数百PB,如果不进行优化,则它们很可能需要数十或数百EB的数据,这将使当前的开发变得根本不可行。
在边缘捕获的许多数据实际上与以前捕获的数据几乎相同
但是确定哪些数据很无聊并不容易,随着正在开发的机器学习系统的复杂性不断提高,它们可用于构建在看到有趣数据时就知道它们的系统,它们可以在数据起源的地方运行,因此将有趣的位带回内核以进行更广泛的使用。
其他形式的数据管理也可以从机器学习中受益
真正的大型数据系统通常有数十,数百甚至数千个开发人员,数据工程师和数据科学家在使用它们,随着人数增加到几个以上,他们开始重复基本任务和分析是很普遍的,举个愚蠢的例子,建立营销模型的多个数据科学家可能都将一个功能集成到他们的模型中,从而体现了潜在客户似乎比他们居住的地方年轻(或更老)的想法,这可能表明一些有趣的倾向以不同的方式行事,让所有这些人开发相同或几乎相同的功能是在浪费精力。
机器学习可用于根据数据对象的形状向数据科学家建议这些常用的功能或分析
在某种程度上,此类建议是有用的,并且已纳入模型中,可以用来表示其他建议,而且这样的数据科学推荐引擎将具有增加对哪种数据和计算对公司有价值的可见性的理想效果,数据结构在处理大量数据中的作用是什么?数据结构的核心作用是使我们的客户能够执行正确的计算,从而在正确的时间,正确的位置和正确的数据上执行正确的业务操作。此外,必须在基本站在阴影中的同时完成此操作,而又不使执行正确计算和采取正确动作的核心任务更加困难,这意味着,如果要成功执行此支持角色,数据结构需要以尽可能简单的方式来协调数据移动,安全性,持久性和访问。
这种简单性的一方面是数据结构必须允许关注点分离
例如在数据生成时,无论生成数据的人都不必考虑如何,在何处或何时使用该数据,相反在使用时分析程序应该能够从任何地方查看所有必要的数据,而不会增加处理数据运动的复杂性,在这两者之间,负责做出任何必要的数据移动的行政责任人不应在意数据的内容。
这样的关注点分离使从事整个问题的这些不同方面的每个人都可以专注于成功解决问题的特定部分,而不必担心其他部分
数据结构的另一个作用是促进多租户,在大规模情况下,至关重要的是,许多应用程序必须能够在共享的大规模数据结构上协同工作,原因之一是成本,大规模地,我们根本负担不起给每个人自己的庞大系统,但是没有那么明显的原因,例如典型的大型数据系统上的个应用程序通常是一个不可靠的应用程序,它的失败几率很小,而很少出现显着且意想不到的巨大价值的机会。
由于具有强大的多租户关系
后续项目经常会出现在前几个项目的部分,并且本质上更具投机性,这意味着它们失败的可能性很高(因为主要的成本是由前几个项目承担的),导致意外的积极结果的可能性更高,此类意外结果通常来自初为不同项目构建的大数据资产的意外组合,如果没有良好的多租户关系以及在不损害现有支持级别协议的情况下共享数据集的能力,这种交叉授粉将永远不会发生。
当企业看到其数据存储需求增长时,您推荐的前三项实践是什么?
为了生存在近期和中期的未来中将面临的数据规模,企业必须
1、通过采用增量数据建模技术,确保其数据处理的前瞻性。
2、从为VM配置存储的想法升级到为基于VM的应用程序和基于容器的应用程序提供可伸缩数据结构的想法。
3、使用多租户和地理分布,无论何时何地都可以限度地利用数据。
4、解决方案及其为企业解决的问题。
解决方案可帮助企业大规模应对数据密集型应用程序的挑战
容器平台使使用轻松开发和部署容器化应用程序,包括用于AI / ML和分析用例的数据密集型应用程序,允许您在一个位置或以地理分布的方式从小到大存储和管理数据,它们一起使您可以在正确的位置,正确的时间使用正确的数据进行正确的计算-无论是在数据中心,任何公共云中还是在边缘。