400 050 6600
数据分析师

手机号

验证码

30天自动登录

统一数据模型中本体的作用

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-07-13

在访问云中的分析时,用户希望控制不同数据源的复杂性
当您整合包含不同数据模式和定义的关系源时,您正在进入一个痛苦的世界,除非您通过数据集成、匹配、合并和清理的严酷考验来运行它们,否则无法汇总这些源以进行统一钻取,即便如此,数据变得不连贯的可能性始终存在,通常必须以关系第三范式形式提供结果数据集,跨多结构源查询可能涉及将非关系数据转换为支持 SQL 访问的关系模式,它甚至可能涉及将数据保留在其源格式中,并通过可以对无数语义进行公正处理的抽象提供灵活的查询访问,然而这并不总能确保数据的完整原始上下文可以在其复杂的转换中幸存下来。

这就是统一数据模型可以节省时间的地方
这些语义抽象层确保被消费的数据资产具有以下特征:
整合:整合通常需要将所有相关数据整合到一个物理和/或逻辑集成的数据存储库中。该存储库可能是数据湖、数据仓库或其他针对分析进行了优化的云数据库,甚至可能是分布式数据结构。
清理:数据清理需要在加载到存储库之前对所有数据进行转换、匹配、合并、纠正和增强。云提供商通常通过数据剖析、数据清理、数据增强和主数据管理服务来提供这些功能。
当前:拥有数据可能需要加速数据从源应用程序到商业智能、报告和其他消费应用程序的提取、准备和交付。为了实现这一点,数据平台供应商可能会通过自己的解决方案或合作伙伴产品提供分布式缓存、事件流处理和内存中数据集成功能。
一致:实现数据一致性通常涉及将所有相关数据协调为通用格式、词汇表、模式、维度和层次结构。通常,这涉及通过 API 对语义抽象层启用查询、报告、仪表板和其他分析访问。
可理解:随着数据复杂性的增加,本体成为确保统一数据模型可理解的更重要的工具,本体——以及词汇表和分类法的相关概念——主要面向数据在不同数据存储实现内部和之间的分析用途。以资源描述格式和其他格式构建的本体是面向语义查询和知识发现的分析工件,它们提供特定业务信息领域的概念、关系和规则的视图,而不管该信息如何存储为数据。

从更广泛的高级分析角度来看,本体支持以下用例:

构建语义模型:开发人员将语义明确建模为 RDF 本体和/或相关的逻辑结构,例如分类法、叙词表和主题图。这些本体用于驱动结构化内容的创建,这些内容实例化本体中定义的实体、类、关系、属性和属性。

异构语义之间的中介:开发人员使用本体和其他语义模型来驱动现有结构化数据集之间的映射、转换和聚合的创建。

挖掘非结构化格式中的隐含语义:开发人员使用自然语言处理和模式识别工具从非结构化文本源中提取隐含语义。

在统一存储库中管理语义:应用程序环境需要存储库或库来管理本体和其他语义对象,并维护规则、策略、服务定义和其他元数据,以支持应用程序语义的生命周期管理。

通过综合控制管理语义:应用程序环境要求对本体应用各种控制——访问、更改、版本控制、审计等;否则,将它们称为“受控词汇表”将毫无意义。

您可能将本体视为适用于数据深层分析含义的元数据。因此,它们提供了一个关键的语义层,所有数据驱动的见解都牢牢植根于其中。


Prev article

CPDA数据分析师培训多地同步开班!

Next article

ML 的新 AI 思维模式如何使深度学习更易于访问

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务