深度信息科学提供基于机器学习的自调整数据库系统
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-09-08
从磁盘中分离出内存
将这些内容分离开来,以便可以对其进行独立配置。我们已经实现了机器学习,并且能够对机器上的资源,机器上的工作负载类型及其需求以及机器内部的信息,其结构,元数据以及这些类型的事物进行建模,当工作负载与系统交互并且保持在线状态时,机器学习将预测需要将哪些内容组织到内存中以处理工作负载的并发运行,通常,我必须获取该信息,将ETL [提取转换并加载]到一个单独的数据库中,对其进行分析,这需要很多时间。这降低了事件发生时的洞察力。
我们能够做的是,随着事件的到来,机器学习将监视正在发生的事情
它会监视交易,现在我为分析优化了工作负载,我将即时重组内存中信息的呈现方式,以便我可以快速处理事务,但也可以处理从数据中获取信息的分析,大多数系统在成为CPU约束或内存约束之前,都已成为约束的可伸缩性。因此,在数据库上扔一台更大的计算机并不一定会为您提供更大的可伸缩性。
我们的数据库内核可以理解我何时添加这些资源
因此,如果我拥有虚拟化平台,则可以动态添加CPU和内存,它可以识别并开始使用而无需人工干预,不必坐在那里对其进行优化。机器学习可以根据不断变化的工作负载中的条件来处理所有这些问题,因此系统可以以我们所看到的性能水平一直以某些竞争对手的64倍的性能水平来读取,编写和处理查询。
大多数数据库性能的改进仅是通过转移到SSD来实现的,而内存速度更快
对于内存系统,“我的数据库只能和我拥有的内存一样大,并且不会改变科学。这是一种更快的媒介,但是折衷是不可思议的。如果我拔掉电话,我的数据库就会丢失,一些内存系统将数据写到磁盘的背面,但是我们说您在内存中需要回答的所有问题并进行写操作所需的所有数据,我们会预测您需要的内容,但是会写出它们尽可能快地将其插入磁盘,因此您可以两全其美。
公司能够同时处理同一数据库上的分析工作负载和交易工作负载的兴趣日益浓厚
他们寻求更快的问题答案并尝试避免处理两个工作负载时所需的ETL(提取,转换和加载)步骤分别,这是因为我们相信它的自我调整功能及其可扩展性使其成为许多行业的诱人主张,这些行业开始发现其数据库昂贵或需要大量劳动力以进行扩展或扩展,我们有一些教员需要在20至40 GB之间的'大型'数据库上运行查询,甚至有一位研究人员从未亲自编写SQL查询,这是基因组和气象数据集更大,发现与标准MySQL存储引擎相比,它提供了很好的性能,而无需进行手动调整变量。