使用合成数据克服 ML 模型训练的数据短缺
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-06-15
模型缺乏数据
缺乏反映真实生活条件的完整深度、粒度和多样性的数据通常是机器学习模型表现不佳的原因,需要大量数据集才能运行无偏见的 ML 模型,该模型可为所有类型的场景创建有意义的见解,不同的模型类型有不同的数据要求,但查找数据始终是一个挑战,线性算法每类需要数百个示例;更复杂的算法需要数万(可能是数百万)个数据点,根据经验,您需要的示例数量大约是模型中自由度的 10 倍。
如果数据不足,模型更容易过拟合,从而无法正确分析新数据
如果数据类型缺少特定人群,则模型可能会出现偏差,无法反映其运行环境的实际情况,训练数据需要包括总体中每个成员按比例准确的样本大小,包括所有类型的实例和组合,这在异常检测问题中变得更加严重,其中需要检测的异常模式可能没有得到充分体现,企业还可能面临数据不完整的问题,即数据集缺少属性值。
数据短缺的原因
AI/ML 模型可用数据不足的原因有很多,首先由于数据隐私法的规定,企业不得在未经明确许可的情况下使用敏感的客户数据,没有足够的客户、员工或用户同意将他们的数据用于研究目的,另一个原因是 ML 模型可能旨在适应新趋势或响应尚无历史数据可用的新技术、流程或产品功能,数据本身的性质会导致样本量变小,例如衡量股票价格对消费者价格指数敏感度的模型仅限于每月发布一次的指数,即使是 50 年的 CPI 历史也会产生 600 条记录——一个非常小的数据集,有时标记数据的工作不及时或不符合成本效益,例如预测客户满意度的模型可能需要大量时间来手动检查数百个服务电话、短信和电子邮件的录音,以衡量客户情绪。
创建合成数据的新进展
能够生成大量安全数据以保持企业合规性,合成数据提供模型所需的数据,同时填补保持数据平衡和完整的空白,近提高合成数据准确性的创新使其在提供机器学习模型所需的缺失数据方面更加有用,生成对抗网络 生成模型已成功用于提高图像质量,现在用于提高合成表格数据的准确性,生成模型使用两种神经网络模型,一种生成新的似是而非的样本,另一种将生成的示例与实际数据区分开来,两者相互对抗,生成器模型提供样本来欺骗鉴别器,并通过经验和微调,创建更真实的合成数据。
没有使用鉴别器来预测生成的图像为真实的概率
缺乏反映真实生活条件的完整深度、粒度和多样性的数据通常是机器学习模型表现不佳的原因,需要大量数据集才能运行无偏见的 ML 模型,该模型可为所有类型的场景创建有意义的见解,不同的模型类型有不同的数据要求,但查找数据始终是一个挑战,线性算法每类需要数百个示例;更复杂的算法需要数万(可能是数百万)个数据点,根据经验,您需要的示例数量大约是模型中自由度的 10 倍。
如果数据不足,模型更容易过拟合,从而无法正确分析新数据
如果数据类型缺少特定人群,则模型可能会出现偏差,无法反映其运行环境的实际情况,训练数据需要包括总体中每个成员按比例准确的样本大小,包括所有类型的实例和组合,这在异常检测问题中变得更加严重,其中需要检测的异常模式可能没有得到充分体现,企业还可能面临数据不完整的问题,即数据集缺少属性值。
数据短缺的原因
AI/ML 模型可用数据不足的原因有很多,首先由于数据隐私法的规定,企业不得在未经明确许可的情况下使用敏感的客户数据,没有足够的客户、员工或用户同意将他们的数据用于研究目的,另一个原因是 ML 模型可能旨在适应新趋势或响应尚无历史数据可用的新技术、流程或产品功能,数据本身的性质会导致样本量变小,例如衡量股票价格对消费者价格指数敏感度的模型仅限于每月发布一次的指数,即使是 50 年的 CPI 历史也会产生 600 条记录——一个非常小的数据集,有时标记数据的工作不及时或不符合成本效益,例如预测客户满意度的模型可能需要大量时间来手动检查数百个服务电话、短信和电子邮件的录音,以衡量客户情绪。
创建合成数据的新进展
能够生成大量安全数据以保持企业合规性,合成数据提供模型所需的数据,同时填补保持数据平衡和完整的空白,近提高合成数据准确性的创新使其在提供机器学习模型所需的缺失数据方面更加有用,生成对抗网络 生成模型已成功用于提高图像质量,现在用于提高合成表格数据的准确性,生成模型使用两种神经网络模型,一种生成新的似是而非的样本,另一种将生成的示例与实际数据区分开来,两者相互对抗,生成器模型提供样本来欺骗鉴别器,并通过经验和微调,创建更真实的合成数据。
没有使用鉴别器来预测生成的图像为真实的概率
而是使用了一个对给定图像的真实性进行评分的评论家,评论家神经网络寻求在训练数据集中观察到的数据分布与在生成的示例中观察到的分布之间的小距离,然后训练生成器模型以创建更真实的数据,与通过在两个对立模型之间寻找平衡来寻求稳定性的 不同,寻求模型之间的收敛,从而产生具有更接近现实生活特征的合成数据,随着技术的发展,合成数据变得更丰富、更多样化并与真实数据相似,合成数据很可能变得易于生成和使用,终用于解决数据短缺的合成数据将保护隐私,并使企业保持合规性,同时提高 ML 模型的速度和智慧。