大规模解决数据集成-出现DataOps,知识图和许可的区块链
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-08-11
长期存在的数据集成问题
单个数据库事务处理系统具有直接的数据管理问题,因为该应用程序定义了数据策略,并且通常不存在与外部源的临时数据集成,某些单一来源的交易系统可能需要即时访问外部数据,或者只需要定义明确的常规访问,这些连接必须从头开始构建(并维护),尤其是那些依赖于API的连接(这些连接具有附加值),当构建用于报告,分析,数据科学和AI的数据体系结构时,它们将得到复杂,昂贵且并不总是可靠的数据仓库,数据湖以及近在云中的对象存储的支持。它们的共同特征是由许多数据源组装而成的物理,持久数据存储。
昂贵的存储空间以及未针对该任务设计的技术的应用
数十年来,组装数据的解决方案是将其从源移动到单个“目标”,随着时间的流逝,很明显,当您移动数据时,它会失去上下文,大型分析工具可以以多种形式处理更多数据,供个人在没有数字帮助的情况下理解和审核,他们需要先进的,由AI驱动的工具。
数据分析师和AI开发人员通常会创建称为训练集的数据子集,以根据已知结果的数据测试其模型
这是非常重要的一步,需要很高的技巧和谨慎,以免在模型中引入偏见,甚至有一个称为“过度训练”的概念,其中模型对训练集变得过于敏感,并且失去了很好的预测能力,大多数建模者不会直接从操作系统或数据仓库中获取数据;取而代之的是,他们花费大量时间从内部和外部多个来源组装数据,以使他们能够使用的格式提取所需的数据。实际上,此过程浪费了分析人员的大量时间,据估计,这可能会浪费多达80%的时间,因为必须将数据组装并移动到平台上,算法才能在其中筛选数据。
如果没有适当的管理,治理和集成,数据通常是不可用的
有了这些,数据可以被具有智能的工具(例如AI和知识图谱)可靠地使用,关于数据不容忽视的一项指导原则:永远不要因信念而接受数据。如何解释,记录和收集数据是人类决定如何测量,何时何地以及采用何种方法的结果。实际上,数据的上下文(为什么要收集数据,如何收集数据以及如何转换数据)始终是相关的。
没有诸如上下文无关的数据之类的东西
数据无法体现有时会想象的那种的客观性,在某种程度上,可以说数据的收集和管理以解释为前提,由于预处理的现实,“原始数据”不仅是一种实际的不可能;相反,这在概念上是不可能的,因为数据收集本身已经是一种处理形式,作为一个行业,我们在将数据应用于解决问题方面遇到了绊脚石且进展不足。
我们终于到了无须这样做的地步
数据应放置在适当的地方,强大的技术可以代替麻木的组装工作,如果您想到烹饪比赛的表演,则只要参赛者打开篮子,他们就会在厨房四处奔跑,收集他们认为需要的东西,他们总是失败,浪费宝贵的时间(80%?)回到食品储藏室或冷藏室以获取更多,有个更好的方法,试着想象他们凝视着篮子,想象他们将要做什么,并停留在自己的位置,因为一只看不见的手及时地向他们提供了他们需要的一切,以便他们可以程度地烹饪。
数据转换-需要考虑的新选项
转换企业数据和应用程序的步是完全了解所有数据,第二是具有发挥作用的机制,图形数据库是一种精通图形的开放查询语言,重要的是我们过去所说的元数据-现在是一种复杂的结构,赋予数据以意义,关系和自身的安全性,有些人将数据称为“新油”,但我宁愿将其视为提供厨师的隐形手。如今,企业关注的重点是以数据为中心的应用程序,而不是流程自动化(RPA是一个例外,只是一小部分),分析的常见用途之一是绑定事件序列以得出某些原因分析。
图形数据库和语义技术平台
结合了图数据库,“许可的区块链”和语义技术来创建“知识图”。这些元素的组合旨在提供去中心化(区块链元素)的功能,它们被称为具有不变性的“熟悉的数据库格式”,并非以应用程序为中心的平台,而是以“以数据为中心”描述其产品,他们将其描述为:
1、嵌入数据的数据安全性
2、数据来源/信任-可验证的数据
3、实时,可嵌入(甚至在浏览器中)
4、不使用API共享数据
图数据库的使用具有RDF和W3C标准的互操作性
可立即提供机器可读的功能,并具有带有表示,存储数据的节点,边和属性的属性图的扩展查询功能,当然区块链元素可以分配对数据库的控制权,而不是通常的集中式授权,并且可以实时捕获数据,时间戳可以精确到毫秒,并且永远不会消失并且可以通过密码保护。
用于现代数据集成的DataOps
自助数据访问和分析开发通过扩展和复杂化系统来强调数据供应链,分析与操作系统不同,因为它们是动态的,即使是那些稳定且持久的数据源,也会受到数据漂移,语义结构(数据含义),结构以及上游和下游系统变化的影响,基本概念应用于无限更复杂的数据世界来解决此问题,从而为数据从业人员提供提高效率的能力,尽管DataOps承诺简化大数据的分析,但这是有代价的,实现这一目标的体系结构具有许多组成部分,并且很复杂。
遗留和点解决方案的常见问题包括无法自动缩放管道,几乎没有操作可见性以及几乎没有现成的集成
所有这些都会导致更长的洞察力和更低的商业信心,解决这些问题,并使组织能够在数据移动策略中保持敏捷,管道的自动化,甚至在基本的层次上,对管道需求的可见性都是至关重要的。
自动化功能可能包括:
1、管道配置
2、管道属性的应用
3、预先建立的连接和转换阶段
4、管道重用和段/片段重用
5、与詹金斯,木偶和厨师(基础设施自动化)等解决方案集成
尝试为AI标记大量数据或附加语义定义的尝试过于费力,缓慢且容易出错
ML和AI图形数据库和数据管道的大规模应用对数据资源的交付和应用产生了积极的影响,提供了来源,治理和安全性,但您可以期待许多其他好的方法。
客服热线:400-050-6600
商业联合会数据分析专业委员会