正确的实现理想的通用数据模型
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-10-30
出现的并将在新年继续蓬勃发展的解决方案是一种可行的解决方案
可以持续地驯服这种复杂性,以加快实现数据处理价值的时间,通过大大扩展数据建模的范围和规模,组织可以将通用模型用于从不同系统收集数据的任何用例。整体数据结构已经可以在整个企业中的任何地方集成数据,以符合通用数据模型。除了个人用例和应用程序之外,用于扩展数据建模的其他方法包括:
单一存储库:尽管每种方法都对数据科学产生重大影响
但是使用标准化数据模型实现单个存储库特别适合该学科,因为它可以合并“企业所有相关业务对象和概念的本体,然后从所有实体映射数据“他们所处的各个位置都融入了一张大型企业知识图中,特定于行业的模型:这些模型涵盖整个垂直行业(例如制药行业或任何其他行业),并且以快速的实施时间和易用性而闻名,根据业务对象,业务实体,业务指标预定义了数据,然后将数据映射到那些业务指标,一切将顺利进行。
企业间模型:组织之间的数据交换越来越被战略联盟,并购和子公司采用
这些方法将数据建模的价值扩展到了各个用例之外,从而普遍促进了跨企业内部和企业之间的主体,如映射,模式,时间序列分析和术语标准,通用数据模型正迅速成为组织确定任何单个用例的所有相关数据的必要条件,其中令人信服的仍是认知计算部署。
时间序列分析
通用数据模型的时间优势是其宝贵的价值,它们不仅减少了花费在应用程序或分析上的工程数据花费的时间,而且还准备好以对数字敏感的低潜在能力来管理对时间敏感的问题。简单的基于事件的模式在整个企业中具有普遍适用性,从而体现了这些时间上的好处,因为“数据库中的几乎任何事物都是事务性的,或有关在特定时间点发生的事情的,如果某件事在某个特定时间发生,您可以将其描述为事件。” 事件包括开始时间和停止时间,例如呼叫者与联络中心进行交互的时间,并且由子事件组成以表示事件的深度,例如呼叫者对产品的想法,服务的取消以及原因。
统一模式与将组织数据完全映射到单个存储库或在组织之间发布低潜伏交互以进行供应链管理密切相关
组织间共享数据模型促进了,实时场景的“需求驱动响应”,包括从响应公共卫生危机到业务响应的一切,制图自动化,将各种数据整理成统一的模型主要是基于映射,这说明了通用模型与统计人工智能之间的二分法,一方面,这些模型包含各种分类数据,这是准确的预测模型所需要的,统一模型的顶级解决方案利用了机器学习,因此“您正在管理核心数据模型,您的直观AI可以在该数据模型上映射所有源数据”。这种能力在一定程度上说明了使用特定行业数据模型的便利性;跨组织,其不同部门和不同数据库的源数据会自动映射到模型。
这种方法有两个主要好处
这是为数据科学工作建模数据的一种极好的方法,其次,“源映射是抽象出来的,并且与运行在顶部的业务规则进行了比较,此特性对于通用模型的长期可重用性至关重要,“如果源中发生某些更改,则业务规则不会更改。” 源始终随时间变化,这是对传统数据模型进行大量重做的原因,除了支持灵活的通用模式外,通用数据模型还必须标准化描述业务概念的术语,尤其是跨不同数据类型的术语。贝利尼认为,如果不使用相同的术语来描述相同的想法,就好比“如果不是美国拥有共同的货币,每个州都拥有自己的货币”。“执行贸易将有多困难?” 标准化方案依赖于标准化术语,树中的每个术语在分类法或本体中的其他地方都有描述,我的树上没有任何东西是由程序员组成的,一切都是基于标准的。”
某些通用数据模型方法使用户能够利用自然语言技术在模型之上“创建自己的派生语言”
在基于标准的设置中,这种方法的可扩展性是可取的,因为“只要有新团队出现,他们就会查看数据模型并由于其原因想要对其进行扩展,他们应该能够做到这一点,每个部门可以利用相同的模型,将其扩展以供部门使用,并且其添加对于组织中的其他人员而言都是可以理解和使用的。
实体建模
跨整个企业,特定于行业的部署或组织之间跨越数据模型的基本要求是将它们集中在企业主要关注的实体上,客户,医生或提供者,将事件模式与各个实体耦合在一起具有以下优点:
简洁性:这些统一模型的朴素性备受追捧,他们的对象仅由实体和事件组成,而不是“复杂的模式”。
特征生成:单个存储库中的实体事件查询不涉及多个页面,而是跨多个数据源进行整体查询,而是涉及“仅一个句子”,从而实现了机器学习的快速特征识别。
客户360:每个实体在每个事件中都有一个通用标识符,因此组织可以迅速跟踪客户或患者的旅程以进行全面分析。
行业特定模型
行业特定模型的主要好处是它们在跨部门或跨企业的使用。这种方法的其他好处包括:
包容性:这些模型的包容性是特定于纵向的,在医疗保健中,存在“用于相似医学目的或相同医学目的的替代零件;所有这些都是模型化的,汽车中发生了同样的事情:零件。
预先构建:由于已经建立了这些模型,因此组织不必花力气去管理或运行所有这些东西。
主题专长:这些模型表示从数据到业务关注的可喜进展,因为“业务团队不必聘请数据分析师。
特殊性:通过为供应链管理提供组织之间可交换数据或资源的控制塔精确性,他们可以详细说明“什么是单个单位和项目,因为当事情发生变化时,它们可以提供更大的灵活性”,您需要能够表示出来,这就是建模的意义。
实时响应: 对上述好处的暗示是对不断发展的业务条件的潜在响应较低,这很有用,因为业务世界随时间而变化。
更加丰富的预测分析:实时监视其他组织的数据,与公司自身的数据相结合,可以创建理想的机器学习训练数据条件,网络中的所有节点都可以获取所有数据以进行协作和解决问题。
通用数据模型可简化
可以持续地驯服这种复杂性,以加快实现数据处理价值的时间,通过大大扩展数据建模的范围和规模,组织可以将通用模型用于从不同系统收集数据的任何用例。整体数据结构已经可以在整个企业中的任何地方集成数据,以符合通用数据模型。除了个人用例和应用程序之外,用于扩展数据建模的其他方法包括:
单一存储库:尽管每种方法都对数据科学产生重大影响
但是使用标准化数据模型实现单个存储库特别适合该学科,因为它可以合并“企业所有相关业务对象和概念的本体,然后从所有实体映射数据“他们所处的各个位置都融入了一张大型企业知识图中,特定于行业的模型:这些模型涵盖整个垂直行业(例如制药行业或任何其他行业),并且以快速的实施时间和易用性而闻名,根据业务对象,业务实体,业务指标预定义了数据,然后将数据映射到那些业务指标,一切将顺利进行。
企业间模型:组织之间的数据交换越来越被战略联盟,并购和子公司采用
这些方法将数据建模的价值扩展到了各个用例之外,从而普遍促进了跨企业内部和企业之间的主体,如映射,模式,时间序列分析和术语标准,通用数据模型正迅速成为组织确定任何单个用例的所有相关数据的必要条件,其中令人信服的仍是认知计算部署。
时间序列分析
通用数据模型的时间优势是其宝贵的价值,它们不仅减少了花费在应用程序或分析上的工程数据花费的时间,而且还准备好以对数字敏感的低潜在能力来管理对时间敏感的问题。简单的基于事件的模式在整个企业中具有普遍适用性,从而体现了这些时间上的好处,因为“数据库中的几乎任何事物都是事务性的,或有关在特定时间点发生的事情的,如果某件事在某个特定时间发生,您可以将其描述为事件。” 事件包括开始时间和停止时间,例如呼叫者与联络中心进行交互的时间,并且由子事件组成以表示事件的深度,例如呼叫者对产品的想法,服务的取消以及原因。
统一模式与将组织数据完全映射到单个存储库或在组织之间发布低潜伏交互以进行供应链管理密切相关
组织间共享数据模型促进了,实时场景的“需求驱动响应”,包括从响应公共卫生危机到业务响应的一切,制图自动化,将各种数据整理成统一的模型主要是基于映射,这说明了通用模型与统计人工智能之间的二分法,一方面,这些模型包含各种分类数据,这是准确的预测模型所需要的,统一模型的顶级解决方案利用了机器学习,因此“您正在管理核心数据模型,您的直观AI可以在该数据模型上映射所有源数据”。这种能力在一定程度上说明了使用特定行业数据模型的便利性;跨组织,其不同部门和不同数据库的源数据会自动映射到模型。
这种方法有两个主要好处
这是为数据科学工作建模数据的一种极好的方法,其次,“源映射是抽象出来的,并且与运行在顶部的业务规则进行了比较,此特性对于通用模型的长期可重用性至关重要,“如果源中发生某些更改,则业务规则不会更改。” 源始终随时间变化,这是对传统数据模型进行大量重做的原因,除了支持灵活的通用模式外,通用数据模型还必须标准化描述业务概念的术语,尤其是跨不同数据类型的术语。贝利尼认为,如果不使用相同的术语来描述相同的想法,就好比“如果不是美国拥有共同的货币,每个州都拥有自己的货币”。“执行贸易将有多困难?” 标准化方案依赖于标准化术语,树中的每个术语在分类法或本体中的其他地方都有描述,我的树上没有任何东西是由程序员组成的,一切都是基于标准的。”
某些通用数据模型方法使用户能够利用自然语言技术在模型之上“创建自己的派生语言”
在基于标准的设置中,这种方法的可扩展性是可取的,因为“只要有新团队出现,他们就会查看数据模型并由于其原因想要对其进行扩展,他们应该能够做到这一点,每个部门可以利用相同的模型,将其扩展以供部门使用,并且其添加对于组织中的其他人员而言都是可以理解和使用的。
实体建模
跨整个企业,特定于行业的部署或组织之间跨越数据模型的基本要求是将它们集中在企业主要关注的实体上,客户,医生或提供者,将事件模式与各个实体耦合在一起具有以下优点:
简洁性:这些统一模型的朴素性备受追捧,他们的对象仅由实体和事件组成,而不是“复杂的模式”。
特征生成:单个存储库中的实体事件查询不涉及多个页面,而是跨多个数据源进行整体查询,而是涉及“仅一个句子”,从而实现了机器学习的快速特征识别。
客户360:每个实体在每个事件中都有一个通用标识符,因此组织可以迅速跟踪客户或患者的旅程以进行全面分析。
行业特定模型
行业特定模型的主要好处是它们在跨部门或跨企业的使用。这种方法的其他好处包括:
包容性:这些模型的包容性是特定于纵向的,在医疗保健中,存在“用于相似医学目的或相同医学目的的替代零件;所有这些都是模型化的,汽车中发生了同样的事情:零件。
预先构建:由于已经建立了这些模型,因此组织不必花力气去管理或运行所有这些东西。
主题专长:这些模型表示从数据到业务关注的可喜进展,因为“业务团队不必聘请数据分析师。
特殊性:通过为供应链管理提供组织之间可交换数据或资源的控制塔精确性,他们可以详细说明“什么是单个单位和项目,因为当事情发生变化时,它们可以提供更大的灵活性”,您需要能够表示出来,这就是建模的意义。
实时响应: 对上述好处的暗示是对不断发展的业务条件的潜在响应较低,这很有用,因为业务世界随时间而变化。
更加丰富的预测分析:实时监视其他组织的数据,与公司自身的数据相结合,可以创建理想的机器学习训练数据条件,网络中的所有节点都可以获取所有数据以进行协作和解决问题。
通用数据模型可简化
简化并提高数据模型在筒仓中对于无穷无尽的用例的适用性,它们使组织可以将所有数据用于单个部署,例如用于创建和维护认知计算模型,他们负责将数据管理的这一方面从有限的需求转变为任何以数据为中心的工作的客观推动者。