元数据和机器学习一起可以帮助自动化数据集成
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-09-03
为什么元数据驱动的集成至关重要
元数据已成为现代数据集成的重要组成部分,原因有以下几个:
1、多样化的集成策略:需求多种集成工具,这些工具必须通过元数据共享(交换)共存并有效地协同工作,以实现企业的数据集成目标。元数据通过提供对上游和下游过程的可见性,从而使各种或多或少的专用工具之间能够进行协作。
2、利用数据质量和治理流程作为数据集成的一部分:将这些流程嵌入到集成管道中,就需要在集成工具,质量和治理工具之间双向共享元数据。
3、集成方案中的性能优化:元数据可提供有关基础资源特性的知识,以支持动态优化策略。
4、集成了逻辑数据体系结构的集成解决方案:例如逻辑数据仓库。利用元数据,企业可以构建与不同业务部门相关的多种语义,以支持BI和分析。
机器学习推动集成自动化
尽管机器学习目前在数据集成中只占很小的角色,但由于它有潜力在现代数据集成范式的框架内推动自动化,因此它的重要性有望提高。当前,企业在数据集成中利用机器学习的方式有两种:
1、将机器学习组件嵌入集成流或管道中,以支持实时分析和决策。
2、利用机器学习来小化集成组件的自动化,包括自动。
3、数据分类和数据表征(例如,推断模式和结构)
4、转型建议
5、元数据映射
元数据和机器学习一起
数据集成的未来在于更高的自动化程度,其目标是提高终用户的生产率并减少构建集成工作流所花费的时间,从而总体上降低集成成本并提高敏捷性,数据集成的自动化程度,通过生成和分类元数据以建立数据沿袭,在不久的将来,自动化将不断发展,以涵盖发现和自动化数据质量和治理规则以及数据转换,但仍将仅代表数据集成的部分自动化,此后,进一步自动化的程度将取决于供应商对其产品现代化进行投资的承诺。
元数据和机器学习共同推动数据集成自动化
元数据提供关键信息和见解,例如数据的特征,例如格式,位置,关系,数据质量和使用信息,机器学习利用这些信息来提出和自动化与集成任务有关的建议,一起使用时,组织可以利用各自的优势,从而能够捕获信息并将其应用于竞争优势。