NEWS前沿动态

超越算法偏差是一个数据问题

来源：CPDA数据分析师网 / 作者：数据君 / 时间：2021-05-06

超越“算法偏差是一个数据问题”
在没有故意干预的情况下，训练有素的机器学习模型可以并且确实会放大训练数据中的不良偏见。迄今为止，丰富的工作研究了这些形式的有问题的算法偏差，发现了与种族，性别，地理多样性等有关的差异，这些差异与机器学习模型的性能有关，但是一个令人惊讶的普遍看法是，机器学习模型仅反映了数据集中现有的算法偏差，而其本身并没有造成危害，我们从一个看似简单的问题开始：模型设计如何导致算法偏差？

对导致算法偏差的原因进行更细致的理解很重要
因为它还指示了我们在减轻危害方面所花费的精力，如果算法偏差仅仅是一个数据问题，那么经常被吹捧的解决方案就是消除数据管道的偏差，但是，数据“修复”（例如，对训练分布进行重新采样或重新加权）的成本很高，并且取决于先验知道哪些敏感特征导致了不希望的偏差，以及具有受保护属性和所有特征的全面标签代理变量。

对于现实世界的数据集
同时满足常常是不可行的，对于图像语言和视频等领域，问题的高维度性和现代数据集的庞大规模使得难以保证所有功能均得到全面标注，即使我们能够在性别和种族等规模上标记敏感属性，算法仍可以利用代理变量来重构禁止标记，即使有限数量的受保护属性的数据收集也可能是繁重的，例如很难按照标准分类法进行分类-归因于种族或性别的类别通常在数据集中的编码方式不一致，为这些受法律保护的属性购买标签通常被认为是侵入性的，导致嘈杂或不完整的标签。

如果我们不能保证我们已经完全解决了数据管道中的偏差
那么系统的整体危害就是数据与模型设计选择之间相互作用的产物，在这里认识到模型设计偏差的影响可以在抑制危害方面发挥重要作用，算法不是公正的，某些设计选择要比其他选择更好。认识到模型设计如何影响危害后，就可以开发出新的缓解技术，而这些技术的负担要远小于全面数据收集的负担。

我们的模型设计选择的影响
如果用测试集精度代替算法偏差，则我们的建模选择（体系结构，损失函数，优化器，超参数）表达了对终模型行为的偏好，这将成为一种可接受的态度。大多数机器学习的学生都熟悉图1的某些变化，其中多项式函数的阶数的变化会导致训练后的函数具有与训练数据不同程度的过拟合。

我们的模型选择表达了对模型行为的偏好
大多数机器学习的学生会认识到的一个例子是多项式的度数与过度拟合的度数之间的关系图，我们精通函数选择和测试集精度之间的联系，因为诸如交叉熵或均方误差之类的目标函数反映了我们对于优化高测试集精度的偏好，标准损失函数未明确编码对我们关注的其他目标的偏好，例如算法偏差，鲁棒性，紧凑性或隐私性，但是仅仅因为这些渴望没有得到反映并不意味着它们已经不复存在，计算机完全按照它们所告诉的去做不多也不少，模型可以以多种方式实现目标，同时仍然违背该目标的精神，为了程度地提高测试集精度而进行的模型设计选择不会保留我们关注的静态其他属性，例如鲁棒性和公平性。相反，训练参数模型类似于使用固定数量的材料来建造房屋。

如果我们决定使用更多的砖头来建造更大的客厅
我们将强制重新分配可用于所有其他房间的砖头数量，同样当我们优先考虑一个目标时，无论是测试设置的准确性还是紧凑性和隐私性等其他标准，我们都不可避免地引入了新的权衡，模型设计选择会放大算法偏差的一个关键原因是，公平性的概念通常与模型对代表性不足的保护特征的处理方式相吻合，部分析数据集反映了肤色较浅的受试者的优势，深色肤色的女性的模型错误率要高得多，在地理多样性有限的数据集上训练的模型对从其他区域提取的数据显示出严重的退化。文本数据集中的词频共现经常反映出与性别，种族和残障有关的社会偏见。

模型学习的算法偏差都可以归因于数据集类别内受保护属性的相对上下表示
自然大多数实际数据的偏斜分布与图2中所示的相似，具有少量代表性良好的特征和相对较少代表性的特征的“长尾”特征，特征频率的偏斜会导致在代表性不足的属性上出现不同的错误率，当代表性不足的属性是受保护的属性时，这会引起公平问题，但更广泛地涉及数据受限方案中深度神经网络性能的脆弱性，了解哪些模型设计选择会不成比例地放大受保护的代表性不足的错误率，这是帮助遏制算法危害的关键的步。

大多数自然图像数据集表现出长尾分布
而训练数据中的属性频率不相等，公平的概念通常与模型如何处理代表性不足的敏感属性相吻合，我们的模型设计选择可能会加重或抑制长尾巴上的不同伤害，衡量复杂的权衡，在复杂的系统中，挑战性地是要孤立地操纵一个变量并预见所有的影响，模型设计仅反映数据集中的算法偏差的信念可以部分归因于衡量我们关注的所有变量之间的相互作用的难度。

这正在改变考虑到多个模型需求之间的相互作用
学术界有一种新的紧迫感，近的工作提出了严格的框架来理解和衡量折衷对算法偏差的影响，例如：优化紧凑性如何影响鲁棒性和公平性？隐私与公平之间的权衡又如何呢？近的工作表明，针对隐私保护或压缩进行优化的设计选择会放大少数族裔和多数族数据子组之间的不同影响，从而使“富人愈富而穷人愈穷”诸如“梯度裁剪”和“噪声注入”之类的差异隐私技术会严重降低“人脸多样性”数据集中深色皮肤面孔的准确性，我自己与同事的工作测量了量化和修剪等流行的压缩技术对诸如性别和年龄之类的低频保护属性的影响，发现这些子组受到系统性和不成比例的影响，以便保留频繁使用的功能的性能。

这些并不是重要的设计选择-甚至更细微的选择
如学习率和培训时间长度也会对数据集的长尾错误率产生不成比例的影响，关于深度神经网络的记忆特性的研究表明，具有挑战性和代表性不足的特征是在训练过程的后期学习的，并且学习速度会影响所学内容，因此提前停止和类似的超参数选择会不成比例地，系统地影响数据分布的子集，一个关键的要点是我们的算法是不公正的，一些设计选择要比其他选择更好，考虑到压缩和差异隐私技术在诸如医疗保健诊断之类的敏感领域中的广泛使用，理解错误的分布对于审核对人类福祉的潜在不利损害至关重要，考虑到对人类福祉的影响，在这种情况下，修剪或梯度修剪所带来的取舍可能是无法忍受的，尽管这些结果表明在敏感域中使用这些技术之前应谨慎行事，但它也为减轻危害提供了宝贵的路线图。

考虑到现代培训课程的庞大规模
这是一个巨大的障碍，甚至还知道该如何看待审核有问题的偏见，当呈现模型模型更具挑战性的数据点子集时，关于模型行为的推理通常更容易。我们可以利用有关模型设计选择如何加剧对有可能需要人工审核的分布表部分的危害的知识。压缩识别的示例是这种“在环”工具的示例，它显示了受压缩不成比例影响的数据点，这些示例只是整体分布的一小部分，可以通过比较压缩模型和非压缩模型的预测行为来识别（因此，对于所有特征均不需要预先存在的标签），还可用于直接优化模型，该模型既紧凑又危害较小。

为什么对偏见的起源进行更细致的讨论很重要
责任的分散是一种社会心理现象，由于个人相信有人对干预负责，因此放弃了采取行动，在计算机科学中，责任的扩散通常围绕“超出范围”的讨论，许多子目标可以推迟到一定程度，以至于它们成为专业程序员之间称为“ SEP”的东西-别人的问题，算法偏见是数据集问题的信念引发了责任的分散，它使我们中那些设计和训练算法的人不必担心我们的设计选择如何扩大或抑制危害，但是这种立场基于不稳定的假设，即可以在数据管道中完全解决偏差吗，在我们的数据集远非的世界中，整体危害是数据和模型设计选择的产物。

本文的目的不是说服您忽略数据管道，而仅关注模型设计偏差，而是了解数据和模型在造成偏差中所起的作用可以成为减轻危害的有力工具。算法设计不是公正的，在这里减轻危害通常比收集全面的标签更为可行，理解模型需求之间的相互作用以及我们的模型设计选择对算法偏差的影响的工作尚处于萌芽状态。承认模型设计很重要，这有利于促使人们将更多的研究重点放在模型的重要性上，并且不可避免地会出现关于如何设计模型以程度地减少危害的新见解，如果无法衡量，就无法改善它。

Prev article

从SaaS App数据价值的4个简单步骤

返回列表

Next article

为您的AI团队选择企业结构