自动化数据管理任务和流程的机器学习
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-11-23
嵌入在工具中的ML算法和模型通常解决三个主要目标:
1、自动化,用于易于理解但耗时的开发任务,例如将源映射到目标,编目数据或启用新源
2、优化的系统性能,通过自动选择的查询优化策略,表连接进行数据的方法,资源管理方案和分配方法(例如,热与冷存储,内存与磁盘,或跨节点的复制)
3、通过可感知工作负载的自动扩展,竞价型实例购买以及在异构集群中集成节点类型的容量管理
在这些情况下机器学习具有很高的价值
因为它提高了开发人员的生产力,使轻度技术用户可以使用高级功能,并以少的管理员参与即可提高系统性能。由于这些引人注目的优势,希望在几年内看到大多数功能通过ML和其他方法(例如规则引擎)实现自动化或优化,这里有一些例子,数据分类现代工具可以通过机器学习算法和模型以及老式的业务规则和应用程序逻辑自动对数据进行分类和分类。编目可以应用于数据源,数据集,表,甚至单个列和字段,可以根据用户组织的要求,根据其域,合规风险,质量级别,来源,沿袭等对单个数据元素进行分类。通过多种方式对每个数据元素进行分类,可以丰富用户对目录的搜索和查询,并且可以实现更丰富的跨类别分析关联。
数据域ML算法和其他工具逻辑可以识别并分类属于特定域的数据源和结构
这可以帮助将浏览或搜索目录的用户感兴趣的域,例如客户,产品和财务域,先进的算法甚至可以检测数据集中的域和域关系,ML算法还可以识别和分类在隐私和合规性方面可能敏感的数据元素,数据沿袭机器学习算法可以解析大量复杂数据(甚至是分布在多个数据平台上的数据),以记录数据路径以及群集数据元素和共同来源的数据集,利用这些详细信息,用户可以快速深入地了解数据来源和影响分析。
元数据管理借助大数据,物联网和其他众所周知没有元数据的新资源
嵌入了ML的现代DM工具可以解析数据并推断出可靠的元数据,该工具可以将元数据结构建议给数据开发人员以供批准,或将该结构记录在元数据存储库中,而无需人工干预,数据映射,现在可以通过ML模型和算法执行耗时的源到目标映射,ML看着成功的用户手动进行映射,因此准确性和广度都得到了提高。自动映射可提高数据开发人员,数据科学家和精通数据的业务用户的工作效率。
数据异常检测ML有潜力发现并应对数据缺陷
1、自动化,用于易于理解但耗时的开发任务,例如将源映射到目标,编目数据或启用新源
2、优化的系统性能,通过自动选择的查询优化策略,表连接进行数据的方法,资源管理方案和分配方法(例如,热与冷存储,内存与磁盘,或跨节点的复制)
3、通过可感知工作负载的自动扩展,竞价型实例购买以及在异构集群中集成节点类型的容量管理
在这些情况下机器学习具有很高的价值
因为它提高了开发人员的生产力,使轻度技术用户可以使用高级功能,并以少的管理员参与即可提高系统性能。由于这些引人注目的优势,希望在几年内看到大多数功能通过ML和其他方法(例如规则引擎)实现自动化或优化,这里有一些例子,数据分类现代工具可以通过机器学习算法和模型以及老式的业务规则和应用程序逻辑自动对数据进行分类和分类。编目可以应用于数据源,数据集,表,甚至单个列和字段,可以根据用户组织的要求,根据其域,合规风险,质量级别,来源,沿袭等对单个数据元素进行分类。通过多种方式对每个数据元素进行分类,可以丰富用户对目录的搜索和查询,并且可以实现更丰富的跨类别分析关联。
数据域ML算法和其他工具逻辑可以识别并分类属于特定域的数据源和结构
这可以帮助将浏览或搜索目录的用户感兴趣的域,例如客户,产品和财务域,先进的算法甚至可以检测数据集中的域和域关系,ML算法还可以识别和分类在隐私和合规性方面可能敏感的数据元素,数据沿袭机器学习算法可以解析大量复杂数据(甚至是分布在多个数据平台上的数据),以记录数据路径以及群集数据元素和共同来源的数据集,利用这些详细信息,用户可以快速深入地了解数据来源和影响分析。
元数据管理借助大数据,物联网和其他众所周知没有元数据的新资源
嵌入了ML的现代DM工具可以解析数据并推断出可靠的元数据,该工具可以将元数据结构建议给数据开发人员以供批准,或将该结构记录在元数据存储库中,而无需人工干预,数据映射,现在可以通过ML模型和算法执行耗时的源到目标映射,ML看着成功的用户手动进行映射,因此准确性和广度都得到了提高。自动映射可提高数据开发人员,数据科学家和精通数据的业务用户的工作效率。
数据异常检测ML有潜力发现并应对数据缺陷
例如异常值,非标准数据和各种数据质量问题,根据ML模型或编码的业务规则,某些工具不仅可以检测,还可以自动修复数据质量问题,即将到来的ML自动化和DM优化用例,在不久的将来,基于目录的ML也将有助于数据安全性,治理,容量规划,系统性能和指导性数据探索。