怎样解决自动化机器学习中的偏见和可解释性？

Q&AQ&A问答

怎样解决自动化机器学习中的偏见和可解释性？

来源：CPDA数据分析师网 / 作者：数据君 / 时间：2020-10-28

这些工具有几个好处首先它们可以帮助数据科学家提高生产力
其次ML可以帮助那些不是数据科学家（例如，现代数据分析师）的人建立模型，我们建议希望使用这些工具的组织仍应具有验证产生的见解的技能。无论模型水平如何，都存在一些对模型构建者来说至关重要的特定领域。这些包括偏见和可解释性。

偏差有多种形式
当数据不能代表可能部署模型的环境（例如问题空间）时，就会发生样本偏差，当训练数据包含有关种族，性别或国籍的信息时，会产生偏见偏见，当某些数据可能会从训练集中删除时，会出现排他性偏见在模型前面，您可以找到：

1、当训练数据与生产数据不同时，可以引入测量偏差
2、当模型训练数据导致不公平结果时，可能会出现算法偏差
3、理解和缓解偏见至关重要，因为机器学习模型通常会做出影响我们生活的决策-在医学，刑事司法，招聘和财务方面。

可解释性涉及以人类可以理解的方式描述ML预测背后的原因
例如客户应该能够理解为什么他的贷款申请被拒绝；医生应该了解为什么系统可能做出了特定的诊断，除了道德和透明度因素外，新法规还要求可解释性，用户有权查看自动决策，这就要求用于得出业务决策的模型是可以理解的-这意味着创建模型的人可以解释。

如果用户坚持自己的计划则预计在未来几年中采用将显着增长
从理论上讲，这意味着业务分析师甚至业务用户可能正在使用这些工具来构建模型，这些模型可以作为业务流程的一部分进行操作，也可以仅用于提供见解。无论如何，模型构建者将需要能够解释输出以及有偏见的数据如何影响输出。

用户需要了解其数据集中存在偏差的风险
因为模型构建中的许多偏差可能是人为偏差，这并不意味着仅仅抛出变量，如果执行不正确，可能会导致其他问题，偏见和可解释性的研究近变得越来越重要，并且工具也开始进入市场以提供帮助，项目提供了由研究团体开发的开源偏差缓解算法，这些措施包括偏差缓解算法，以帮助进行机器学习的预处理，处理中和后处理阶段，换句话说，算法对数据进行操作以识别和处理偏差。

供应商正在其工具中提供有助于解释模型输出的功能
一个例子是条形图，它对功能的影响进行排名，这样可以更轻松地确定模型中哪些功能很重要，供应商提供了三种有助于解释性和偏见的输出，其中包括特征重要性以及形状局部依赖图（例如，特征值对预测有多大贡献）和不同的影响分析，不同的影响分析从数量上衡量了受保护阶层的不利待遇。

借助这些功能，模型构建者可以检查分析并确定其模型是否对任何组产生不利影响

此输出可用于确定模型是否公平，以及模型需要采取哪些下一步，这些都是难以解决的问题，工作才刚刚开始，好消息是供应商和终用户都开始意识到机器学习偏差问题，此外，他们开始关心有偏见的模型输出并予以认真对待-不仅仅是因为法律和合规性问题，步是要意识到并教育有关问题以及如何解决它。这包括了解人类和技术方法以帮助减轻偏见。

客服热线：400-050-6600

商业联合会数据分析专业委员会

Prev article

在企业中大数据如何帮助数字化转型？

返回列表

Next article

大流行期间自动化如何影响工作？