什么叫合成数据机器学习的钻石?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-10-26
推动当今人工智能革命所需的高质量数据的供求不匹配
就像煤炭的供应不等于钻石的供应一样,今天的原始数据的供应也并不等于精炼的,带标签的数据的供应,这是机器学习模型训练所必需的,这种供需不匹配的答案是什么?许多公司都在追求实验室生成的综合数据,这些数据可用于支持人工智能的爆炸式增长。
合成数据生成的目标是生成足够修饰的数据
以训练有效的机器学习模型-包括分类,回归和聚类。当通过真实数据处理这些模型时,这些模型必须表现良好,就好像它们是使用自然数据构建的一样,在数据稀疏,稀少或获取成本昂贵的行业中,合成数据可能会非常有价值。常见的用例包括异常检测或处理高度敏感数据的问题,例如与私人健康相关的问题。无论挑战是由于数据敏感性还是数据稀缺性,综合数据都可以填补空白。
共有三种生成合成数据的常用方法:增强采样,生成对抗网络和基于代理的模拟
增强采样,在诸如罕见疾病检测或欺诈检测之类的问题中,常见的挑战之一是代表您要搜索的目标的实例的稀有性,数据中的类不平衡限制了机器学习模型得到准确训练的能力,在培训期间,如果没有足够的机会接触少数群体的实例,则模型很难在评估生产数据时识别实例,在欺诈情况下,如果未对模型进行足够的欺诈实例训练,则将其部署到生产中后会将所有内容归类为非欺诈,为了平衡您的数据,一种选择是对少数类进行过度抽样,或者对多数情况进行欠抽样以创建数据的综合分布。此方法的确确保了模型对每个数据类别具有相等的平衡,统计专业人员长期以来一直使用这种方法来解决班级失衡问题。
另一种方法是利用k -means或另一种广义聚类方法在您的少数类代表的数据点周围创建边界
定义此边界后,您将拥有一个空间,所有代表您的少数群体的数据点都将存在。定义该空间后,您可以创建一组与实际数据共享相同统计特征的合成数据点。然后,这些数据点可用于扩充代表您的少数群体的数据。
生成对抗网络
合成数据创建的下一种方法涉及计算机模型,该模型创建一组无法与实际数据区分开的数据点,想象一下,两台计算机彼此对战,在这个游戏中,台计算机选择一个真实数据点或一个虚构数据点,并将其传递给第二台计算机,第二台计算机的目标是猜测台计算机是否通过了真实数据点或合成数据点,如果第二台计算机正确区分两者,则台计算机将使用此信息来改进其下一次尝试,并从该过程中学习,随着游戏的进行,台计算机非常擅长创建合成数据,因此第二台计算机无法区分实际数据和计算机生成的数据。
该计算机生成的数据将用作其他机器学习模型的输入
使用这种方法已经在人工智能方面取得了许多进步,这些进步包括与真实事物没有区别的虚构视频,图像和艺术作品,所有这些都是通过从真实示例中学习而构建的,使用GAN的一种情况是开发用于测试自动驾驶算法的用例,通过这次培训,公司可以生成数百万种方案,并确定其算法是否已准备好在现实世界中安全运行。
创建合成数据的终方法是使用模拟过程
在该过程中开发代理以代表彼此交互的现实世界实体,并观察和测量这些交互以生成数据,正如现代游戏引擎允许创建代表现实世界中的物理和社会学并可以像活着的人一样进行交互的代理程序一样,这些相同的技术也被用于合成数据的创建。以“模拟人生”游戏为例,该游戏允许人们在虚拟世界中建立生活并通过日常活动与计算机进行交互。随着这些代理变得更加智能化,体现了现实世界的特征,它们可以进行虚拟组合,并且它们的交互结果将成为您的综合数据。
一个现实的例子就是核反应的建模
在科学家建造实际的核设施并引发亚原子反应以观察产生的能量以及如何管理核安全之前,他们会创造出能代表元素粒子及其相关的化学和物理特性的物质。通过建模和仿真,他们可以观察化学反应内部发生的事情以及粒子与其外部环境之间发生的事情。代表这些反应所需的数万亿次计算,它们利用了世界上快的超级计算机来运行这些模型。尽管这些超级计算机是一项巨大的前期投资,但从长远来看,所得数据可以节省它们,并使其能够安全地进行能源创新。
就像煤炭的供应不等于钻石的供应一样,今天的原始数据的供应也并不等于精炼的,带标签的数据的供应,这是机器学习模型训练所必需的,这种供需不匹配的答案是什么?许多公司都在追求实验室生成的综合数据,这些数据可用于支持人工智能的爆炸式增长。
合成数据生成的目标是生成足够修饰的数据
以训练有效的机器学习模型-包括分类,回归和聚类。当通过真实数据处理这些模型时,这些模型必须表现良好,就好像它们是使用自然数据构建的一样,在数据稀疏,稀少或获取成本昂贵的行业中,合成数据可能会非常有价值。常见的用例包括异常检测或处理高度敏感数据的问题,例如与私人健康相关的问题。无论挑战是由于数据敏感性还是数据稀缺性,综合数据都可以填补空白。
共有三种生成合成数据的常用方法:增强采样,生成对抗网络和基于代理的模拟
增强采样,在诸如罕见疾病检测或欺诈检测之类的问题中,常见的挑战之一是代表您要搜索的目标的实例的稀有性,数据中的类不平衡限制了机器学习模型得到准确训练的能力,在培训期间,如果没有足够的机会接触少数群体的实例,则模型很难在评估生产数据时识别实例,在欺诈情况下,如果未对模型进行足够的欺诈实例训练,则将其部署到生产中后会将所有内容归类为非欺诈,为了平衡您的数据,一种选择是对少数类进行过度抽样,或者对多数情况进行欠抽样以创建数据的综合分布。此方法的确确保了模型对每个数据类别具有相等的平衡,统计专业人员长期以来一直使用这种方法来解决班级失衡问题。
另一种方法是利用k -means或另一种广义聚类方法在您的少数类代表的数据点周围创建边界
定义此边界后,您将拥有一个空间,所有代表您的少数群体的数据点都将存在。定义该空间后,您可以创建一组与实际数据共享相同统计特征的合成数据点。然后,这些数据点可用于扩充代表您的少数群体的数据。
生成对抗网络
合成数据创建的下一种方法涉及计算机模型,该模型创建一组无法与实际数据区分开的数据点,想象一下,两台计算机彼此对战,在这个游戏中,台计算机选择一个真实数据点或一个虚构数据点,并将其传递给第二台计算机,第二台计算机的目标是猜测台计算机是否通过了真实数据点或合成数据点,如果第二台计算机正确区分两者,则台计算机将使用此信息来改进其下一次尝试,并从该过程中学习,随着游戏的进行,台计算机非常擅长创建合成数据,因此第二台计算机无法区分实际数据和计算机生成的数据。
该计算机生成的数据将用作其他机器学习模型的输入
使用这种方法已经在人工智能方面取得了许多进步,这些进步包括与真实事物没有区别的虚构视频,图像和艺术作品,所有这些都是通过从真实示例中学习而构建的,使用GAN的一种情况是开发用于测试自动驾驶算法的用例,通过这次培训,公司可以生成数百万种方案,并确定其算法是否已准备好在现实世界中安全运行。
创建合成数据的终方法是使用模拟过程
在该过程中开发代理以代表彼此交互的现实世界实体,并观察和测量这些交互以生成数据,正如现代游戏引擎允许创建代表现实世界中的物理和社会学并可以像活着的人一样进行交互的代理程序一样,这些相同的技术也被用于合成数据的创建。以“模拟人生”游戏为例,该游戏允许人们在虚拟世界中建立生活并通过日常活动与计算机进行交互。随着这些代理变得更加智能化,体现了现实世界的特征,它们可以进行虚拟组合,并且它们的交互结果将成为您的综合数据。
一个现实的例子就是核反应的建模
在科学家建造实际的核设施并引发亚原子反应以观察产生的能量以及如何管理核安全之前,他们会创造出能代表元素粒子及其相关的化学和物理特性的物质。通过建模和仿真,他们可以观察化学反应内部发生的事情以及粒子与其外部环境之间发生的事情。代表这些反应所需的数万亿次计算,它们利用了世界上快的超级计算机来运行这些模型。尽管这些超级计算机是一项巨大的前期投资,但从长远来看,所得数据可以节省它们,并使其能够安全地进行能源创新。
在企业中,这些代理商可以代表与实体商店布局或公司电子商务站点进行交互的客户。,使用智能代理执行的这些虚拟模拟生成的数据对公司而言非常有价值。它们可以遍历数百万个排列,从而创建强大的数据集来驱动其机器学习模型。
商业联合会数据分析专业委员会