AI会协助数据工程师还是替代他们?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-02-09
人工智能和数据管道
设置良好的数据管道是一件很美的事情,它可以将多个数据集无缝连接到商业智能工具,以使客户,内部团队和其他利益相关者能够执行复杂的分析并充分利用其数据。
面向数据工程师的BI和分析
数据工程师在充满挑战的情况下兴旺发展:将数TB的数据从其居住的任何地方带到可以分析的地方,使用各种库和服务对其进行转换,并使管道保持稳定。但是,整个过程的数据准备阶段存在其自身的问题。这可能是一个创造性的过程,并且肯定是必要的,但是每X个小时保存并自动重复使用逻辑是一个挑战,今天解决这一挑战的方法是引入人工智能和机器学习,增强分析是商业智能的下一个迭代,其中AI元素已集成到BI流程的每个阶段。当今正在出现的功能强大的AI分析系统具有AI以多种方式为用户提供帮助的方法,但我们将继续为本文着重数据准备。
我们将讨论的AI可以帮助您进行数据准备过程的三个部分:数据清理和转换,提取和加载以及验证准备好的数据。
随手清洁
俗话说“数据就是新石油”已经成为陈词滥调,但就我们的讨论而言,这是一个特别恰当的隐喻。大多数公司都坐在庞大的数据存储上,但是以未处理的形式,它不是很有用。更糟糕的是,分析非规范化数据会归结为潜在有害和误导性的结果。要继续用石油这个比喻,您需要一个稳定而可靠的管道来将数据从存储位置移到将要处理的位置,以便可以利用其真实价值。
在移动数据时,数据工程师可以消化数据,以便在打入BI系统时,它更接近可用状态。BI平台已经在使用AI以多种方式帮助数据清理过程。让我们逐步了解AI如何为您提供帮助:
AI助手可以建议一个日期模型结构,包括要联接的列,要复合的列,甚至可以创建维表以促进事实表的联接。
AI系统可以应用简单的规则集,以通过使所有文本变为小写并删除值前后的空格等方法来帮助标准化数据,如果您已经有格式的数据集用作学习数据集,那么甚至可以在此基础上训练AI协助以识别较大的数据集的外观,从而允许其采用整体方法进行清洗,而不必告诉它特定的任务做,当AI协助了解您希望数据如何显示时,系统甚至可以扫描所有列并提出有关修复内容的建议,实施主动学习或自行修复错误,例如删除冗余记录(重复数据删除)(例如,由于拼写错误而导致)或使用上下文提示填写缺失值。
云数据仓库的兴起改变了公司处理数据的方式
过去需要企业良好的数据库来保持记录井井有条,如今数据来自各种不同的来源,并且以各种不同的形式出现,从用户生成到感官数据,我们甚至越来越频繁地看到公司使用第三方数据来丰富其业务逻辑(天气预报将如何影响我的销售?)这一变化与AI数据分析系统的复杂程度不断提高同时发生,使它们能够处理所有类型的数据,包括结构化(数字)和非结构化(文本,图像,视频)数据,云仓库上的数据存储是如此便宜,并且通常有不同的角色来负责数据的收集和存储,因此企业不必担心所有格式如何格式化,而是将所有内容抽到仓库中,然后对其进行格式化并处理后来。
在另一个地方,使用AI的BI可以发光,提取数据,对其进行转换,然后将其加载到BI工具中
可以以这种方式应用之前提到的相同AI功能,以终在端点获得可用数据:根据学习数据集,删除重复记录,填充空白值并建议其他清理和转换操作,例如聚类和分段,无论您的数据是如何存储的,正确的AI分析工具都可以帮助您更好地塑造自己的单一事实来源,当您将数据加载到BI平台或数据科学工具中时,它也可以提供帮助。
在将数据移至BI系统中时,获得AI协助的机会是监视流程
如果负载失败,超过正常时间阈值或预测的阈值,则AI可以了解到这一点并工程师以使他们知道存在问题。加载的数据量的突然变化也值得一提,以便工程师可以调查一下是否存在更大的问题,重要的是,强大的AI分析系统可以成为繁忙的数据工程团队的第二眼,使他们能够专注于为分析团队乃至业务带来更多价值的挑战。
离群值,效率和验证结果
异常检测是AI系统可以处理的一项任务,对于处理大量不完全数据的数据工程师来说,这将带来巨大的好处,AI将在创建表和加载新数据时监视表,并检查输出。当系统扫描列中的值时,它可以测试诸如性,参照完整性(指向其他表中的键的值),偏斜分布,空值和可接受值之类的情况。基本上是检查整个表并说“此列看起来正确吗?” 基于一系列适用于它的规则。如果AI认为其中一条规则可能适用,并且列值不符合该规则的条件,则它将向工程师发送警报。
在不检查工作的情况下信任数据是灾难的根源
提出一些问题后,您已经知道要解决的问题,这可能是在之后测试您的AI数据的好方法,如果您的答案回到可接受的范围内,那么您就知道准备过程是成功的(可以接受的),如果存在重大差异,则可能必须重新培训系统或调整所使用设置的严格性/宽松性,具有AI的BI系统可以协助完成的其他一些任务包括向您显示在整个模型中频繁发生的联接,并建议进行预聚合,这对于数据分析师了解和帮助他们更快地进行查询很有帮助,AI还可以扫描列并测试性,例如如果每个值都必须是的,并且有两个具有相同帐户ID的不同用户,则AI可以指出这一点,对于纯数字数据,AI可以识别可能表明输入数据不正确的异常值,无论哪种方式,AI都将再次引起人们的注意,大规模地执行详细的例行工作,并仅在必要时将结果显示给人类数据工程师。
AI正在从事工程工作吗?
尽管人们因机器人而失业,这是一个很好的故事,但实际上,对于数据工程师而言,事实并非如此。应对日常任务,例如消除冗余数据,填补数据集的空白以及在异常情况发生时对人类工程师进行检查,这些都是AI分析系统可以真正增加价值,承担人类实际上不愿做的繁重工作并增强的地方努力工作的数据工程师解决具有挑战性的问题,这些问题将为公司带来更大的回报。
设置良好的数据管道是一件很美的事情,它可以将多个数据集无缝连接到商业智能工具,以使客户,内部团队和其他利益相关者能够执行复杂的分析并充分利用其数据。
面向数据工程师的BI和分析
数据工程师在充满挑战的情况下兴旺发展:将数TB的数据从其居住的任何地方带到可以分析的地方,使用各种库和服务对其进行转换,并使管道保持稳定。但是,整个过程的数据准备阶段存在其自身的问题。这可能是一个创造性的过程,并且肯定是必要的,但是每X个小时保存并自动重复使用逻辑是一个挑战,今天解决这一挑战的方法是引入人工智能和机器学习,增强分析是商业智能的下一个迭代,其中AI元素已集成到BI流程的每个阶段。当今正在出现的功能强大的AI分析系统具有AI以多种方式为用户提供帮助的方法,但我们将继续为本文着重数据准备。
我们将讨论的AI可以帮助您进行数据准备过程的三个部分:数据清理和转换,提取和加载以及验证准备好的数据。
随手清洁
俗话说“数据就是新石油”已经成为陈词滥调,但就我们的讨论而言,这是一个特别恰当的隐喻。大多数公司都坐在庞大的数据存储上,但是以未处理的形式,它不是很有用。更糟糕的是,分析非规范化数据会归结为潜在有害和误导性的结果。要继续用石油这个比喻,您需要一个稳定而可靠的管道来将数据从存储位置移到将要处理的位置,以便可以利用其真实价值。
在移动数据时,数据工程师可以消化数据,以便在打入BI系统时,它更接近可用状态。BI平台已经在使用AI以多种方式帮助数据清理过程。让我们逐步了解AI如何为您提供帮助:
AI助手可以建议一个日期模型结构,包括要联接的列,要复合的列,甚至可以创建维表以促进事实表的联接。
AI系统可以应用简单的规则集,以通过使所有文本变为小写并删除值前后的空格等方法来帮助标准化数据,如果您已经有格式的数据集用作学习数据集,那么甚至可以在此基础上训练AI协助以识别较大的数据集的外观,从而允许其采用整体方法进行清洗,而不必告诉它特定的任务做,当AI协助了解您希望数据如何显示时,系统甚至可以扫描所有列并提出有关修复内容的建议,实施主动学习或自行修复错误,例如删除冗余记录(重复数据删除)(例如,由于拼写错误而导致)或使用上下文提示填写缺失值。
云数据仓库的兴起改变了公司处理数据的方式
过去需要企业良好的数据库来保持记录井井有条,如今数据来自各种不同的来源,并且以各种不同的形式出现,从用户生成到感官数据,我们甚至越来越频繁地看到公司使用第三方数据来丰富其业务逻辑(天气预报将如何影响我的销售?)这一变化与AI数据分析系统的复杂程度不断提高同时发生,使它们能够处理所有类型的数据,包括结构化(数字)和非结构化(文本,图像,视频)数据,云仓库上的数据存储是如此便宜,并且通常有不同的角色来负责数据的收集和存储,因此企业不必担心所有格式如何格式化,而是将所有内容抽到仓库中,然后对其进行格式化并处理后来。
在另一个地方,使用AI的BI可以发光,提取数据,对其进行转换,然后将其加载到BI工具中
可以以这种方式应用之前提到的相同AI功能,以终在端点获得可用数据:根据学习数据集,删除重复记录,填充空白值并建议其他清理和转换操作,例如聚类和分段,无论您的数据是如何存储的,正确的AI分析工具都可以帮助您更好地塑造自己的单一事实来源,当您将数据加载到BI平台或数据科学工具中时,它也可以提供帮助。
在将数据移至BI系统中时,获得AI协助的机会是监视流程
如果负载失败,超过正常时间阈值或预测的阈值,则AI可以了解到这一点并工程师以使他们知道存在问题。加载的数据量的突然变化也值得一提,以便工程师可以调查一下是否存在更大的问题,重要的是,强大的AI分析系统可以成为繁忙的数据工程团队的第二眼,使他们能够专注于为分析团队乃至业务带来更多价值的挑战。
离群值,效率和验证结果
异常检测是AI系统可以处理的一项任务,对于处理大量不完全数据的数据工程师来说,这将带来巨大的好处,AI将在创建表和加载新数据时监视表,并检查输出。当系统扫描列中的值时,它可以测试诸如性,参照完整性(指向其他表中的键的值),偏斜分布,空值和可接受值之类的情况。基本上是检查整个表并说“此列看起来正确吗?” 基于一系列适用于它的规则。如果AI认为其中一条规则可能适用,并且列值不符合该规则的条件,则它将向工程师发送警报。
在不检查工作的情况下信任数据是灾难的根源
提出一些问题后,您已经知道要解决的问题,这可能是在之后测试您的AI数据的好方法,如果您的答案回到可接受的范围内,那么您就知道准备过程是成功的(可以接受的),如果存在重大差异,则可能必须重新培训系统或调整所使用设置的严格性/宽松性,具有AI的BI系统可以协助完成的其他一些任务包括向您显示在整个模型中频繁发生的联接,并建议进行预聚合,这对于数据分析师了解和帮助他们更快地进行查询很有帮助,AI还可以扫描列并测试性,例如如果每个值都必须是的,并且有两个具有相同帐户ID的不同用户,则AI可以指出这一点,对于纯数字数据,AI可以识别可能表明输入数据不正确的异常值,无论哪种方式,AI都将再次引起人们的注意,大规模地执行详细的例行工作,并仅在必要时将结果显示给人类数据工程师。
AI正在从事工程工作吗?
尽管人们因机器人而失业,这是一个很好的故事,但实际上,对于数据工程师而言,事实并非如此。应对日常任务,例如消除冗余数据,填补数据集的空白以及在异常情况发生时对人类工程师进行检查,这些都是AI分析系统可以真正增加价值,承担人类实际上不愿做的繁重工作并增强的地方努力工作的数据工程师解决具有挑战性的问题,这些问题将为公司带来更大的回报。
商业联合会数据分析专业委员会