人工智能和机器学习如何帮助解决IT数据管理问题?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-01-22
数据管理挑战的关键领域是:
1、了解暗数据
2、资料保留
3、数据集成以获得分析结果
4、资料存取
IT部门在这些领域苦苦挣扎,原因如下:
各种类型的传入数据流(其中大部分都是非结构化的)非常庞大,无法每天管理,因此终只能将数据放在任何地方,有关电子数据展示和行业法规之类的历史数据法律和审计流程将需要多少争论,使业务决策者不愿丢弃数据。终用户也从来都不喜欢坐在年度审查会议上讨论数据保留政策,数据集成是IT部门艰巨的任务之一,而且随着诸如数据聚合之类的概念在分析中发挥更大的作用,这种集成只会愈演愈烈,因此似乎不同的数据集可以组合到可搜索的存储库中,以进行新型的业务查询。
快速访问数据是一项业务需求
但是在本地或在云中的高速存储非常昂贵,因此必须将一些数据存档到速度更慢,更便宜的存储中,为了解决问题,管理层在项目上投入了人力,这需要花费一些时间来实现其他重要目标,现在的问题是机器学习,人工智能(AI)和分析能否在数据管理领域(尤其是针对大量非结构化数据)提供帮助?
机器学习,人工智能和分析可以在这里提供帮助:
整理暗数据,每个公司系统和每个业务部门都有大量的数据积累,但人们对此一无所知,通过使用机器学习并将其功能与解决如何分类和处理存储在服务器上的不同类型的电子邮件,文档,图像等的算法相结合,机器学习,人工智能和分析就可以处理未分类的数据并预先处理为您排序,然后知识渊博的人员可以查看自动化建议的数据分类方案,进行调整并执行该方案,该过程的一部分还可以解决数据保留问题,通过分析产生一组建议,就可以从文件中清除数据的建议。
决定扔掉什么
机器学习,分析和AI可以客观地识别很少使用或从未使用过的数据,并建议您将其丢弃,但是它不具备与员工相同的识别能力。例如,这些过程可以挑选出五年以上未访问的数据或记录,表明数据可能已过时。这节省了员工寻找这些可能过时的数据的时间,因为现在他们要做的就是确定是否有任何理由保留它。
汇总数据
当分析开发人员确定需要汇总以进行查询的数据类型时,他们通常会为应用程序创建一个存储库,然后从不同来源提取各种类型的数据以构成一个分析数据池,他们必须开发集成方法以访问从中提取数据的不同源,机器学习可以通过自动开发数据源与应用程序的数据存储库之间的“映射”来使仍然非常手动的过程更加有效。这减少了集成和聚合时间。
企业数据存储以实现访问
在过去的五年中,由于低成本固态存储的发展,数据存储供应商在自动化存储管理方面取得了重大进展,这些技术的进步使IT部门能够使用“智能”存储引擎,这些存储引擎使用机器学习来查看哪些数据类型常使用,哪些数据很少或从未使用,根据插入到机器算法中的业务规则,可以使用自动化功能将数据自动存储在快速或慢速存储中,自动化使存储管理员无需手动解决存储优化问题。
数据管理是一项主要的IT挑战,在大多数组织中还无法解决,而且随着数据的不断流入,情况将变得越来越糟
1、了解暗数据
2、资料保留
3、数据集成以获得分析结果
4、资料存取
IT部门在这些领域苦苦挣扎,原因如下:
各种类型的传入数据流(其中大部分都是非结构化的)非常庞大,无法每天管理,因此终只能将数据放在任何地方,有关电子数据展示和行业法规之类的历史数据法律和审计流程将需要多少争论,使业务决策者不愿丢弃数据。终用户也从来都不喜欢坐在年度审查会议上讨论数据保留政策,数据集成是IT部门艰巨的任务之一,而且随着诸如数据聚合之类的概念在分析中发挥更大的作用,这种集成只会愈演愈烈,因此似乎不同的数据集可以组合到可搜索的存储库中,以进行新型的业务查询。
快速访问数据是一项业务需求
但是在本地或在云中的高速存储非常昂贵,因此必须将一些数据存档到速度更慢,更便宜的存储中,为了解决问题,管理层在项目上投入了人力,这需要花费一些时间来实现其他重要目标,现在的问题是机器学习,人工智能(AI)和分析能否在数据管理领域(尤其是针对大量非结构化数据)提供帮助?
机器学习,人工智能和分析可以在这里提供帮助:
整理暗数据,每个公司系统和每个业务部门都有大量的数据积累,但人们对此一无所知,通过使用机器学习并将其功能与解决如何分类和处理存储在服务器上的不同类型的电子邮件,文档,图像等的算法相结合,机器学习,人工智能和分析就可以处理未分类的数据并预先处理为您排序,然后知识渊博的人员可以查看自动化建议的数据分类方案,进行调整并执行该方案,该过程的一部分还可以解决数据保留问题,通过分析产生一组建议,就可以从文件中清除数据的建议。
决定扔掉什么
机器学习,分析和AI可以客观地识别很少使用或从未使用过的数据,并建议您将其丢弃,但是它不具备与员工相同的识别能力。例如,这些过程可以挑选出五年以上未访问的数据或记录,表明数据可能已过时。这节省了员工寻找这些可能过时的数据的时间,因为现在他们要做的就是确定是否有任何理由保留它。
汇总数据
当分析开发人员确定需要汇总以进行查询的数据类型时,他们通常会为应用程序创建一个存储库,然后从不同来源提取各种类型的数据以构成一个分析数据池,他们必须开发集成方法以访问从中提取数据的不同源,机器学习可以通过自动开发数据源与应用程序的数据存储库之间的“映射”来使仍然非常手动的过程更加有效。这减少了集成和聚合时间。
企业数据存储以实现访问
在过去的五年中,由于低成本固态存储的发展,数据存储供应商在自动化存储管理方面取得了重大进展,这些技术的进步使IT部门能够使用“智能”存储引擎,这些存储引擎使用机器学习来查看哪些数据类型常使用,哪些数据很少或从未使用,根据插入到机器算法中的业务规则,可以使用自动化功能将数据自动存储在快速或慢速存储中,自动化使存储管理员无需手动解决存储优化问题。
数据管理是一项主要的IT挑战,在大多数组织中还无法解决,而且随着数据的不断流入,情况将变得越来越糟
数据架构师和存储经理需要向C级主管强调此问题,但是数据管理项目并非易事,但是通过指出更快的分析市场价值和数据管理潜在的人员力量和存储成本降低的价值,IT经理至少可以在C级讨论中找到可行的切入点,以讨论如何提高战略敏捷性和降低运营成本与此同时。
商业联合会数据分析专业委员会