var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

9项旨在改善机器学习以预防欺诈的实用措施

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-05-20

根据我与的ML团队与成千上万的全球贸易商和支付提供商的合作,我为产品经理和业务负责人提供了以下9条切实可行的原则。

 

数据–建立良性循环

获得正确的欺诈信号和标签数据是挑战性的任务,但是如果操作正确,将为企业带来巨大优势。

 

原则1:模型仅与测试和验证集中的标签一样好

企业需要制定明确的欺诈定义,标记其数据,并确保每个标记都清晰地反映出设置的定义。机器学习方法通常可以容忍训练集中的随机标签错误,但很容易受到系统错误的影响。例如,客户将合法交易标记为欺诈的“友好欺诈”通常是随机的,但其他行为(例如人工代理的标签)可能是系统的,与培训不同,团队必须尝试甚至修复测试和验证集中随机的标签,以使它们足够可靠以评估模型的质量。

 

原则2:访问独特功能将使欺诈者很难破解您的模型

欺诈团队正在与欺诈者竞争,这些欺诈者在重建客户身份方面变得越来越复杂,捕获这些欺诈者的方法是从多个供应商和合作伙伴那里收集独特的数据,并找到识别数字身份背后真正的人的独特属性,利用所有可能有助于风险信号的数据,包括设备,身份,个人和网络行为模式。

 

原则3:通过构建集中式数据存储库并确保其安全性,使数据成为真正的资产

集中式数据存储库将确保数据科学团队知道可用的资源并可以利用它,团队还必须致力于确保客户数据的安全。遵循与欧盟通用数据保护法(GDPR)一致的原则,例如收集组织将用于满足客户需求的数据,仅将其存储到防止欺诈所需的时间为止,并为客户提供对其数据的完全控制权。为了提高客户的信任度,公司需要真正地相信这些原则,而不仅仅是勾选复选框。

 

人类–让人类处于循环中

将防止欺诈的机器学习系统视为人类的替代品是很诱人的。根据我们的经验,的公司将继续与人类保持联系。

 

原则4: 员工水平的表现仍然是金标准,将帮助团队调整模型

经验丰富的人工审核团队在人员层面的表现是对可实现模型表现的合理估计。因此,模型训练错误与人为错误之间的巨大差距表明团队需要减少模型偏差。

 

原则5:有效的机器学习系统旨在与人类良好协作

的机器学习系统知道机器和人的功能完全不同,因此可以利用这些差异。人类可以处理可能没有足够历史数据的情况,或者需要重大判断力的情况。例如,一家企业可能正在从新的地理位置获得订单或表现出独特的行为模式。在将结果推广到新的ML模型之前,值得人们参与这些案例,使用双向反馈来改善机器和人的方面。人工反馈可改善模型偏差并增强模型的可解释性,同时机器学习模型可以提供其他信息,使人类的任务更简单,甚至有助于提高人类的技能。

 

原则6:发现并纠正模型中的人为偏差是团队的责任

机器学习系统的风险之一是,通过设计,它们利用历史数据进行推断。人们通常会标记数据。数据将反映人为偏差也就不足为奇了,并且团队有责任纠正这些偏差。

 

步是找出潜在的偏差来源,并在数据中明确寻找它们。验证和测试数据集是否代表真实分布(即没有样本偏差)?您的团队是否在测试集中包括记录,以检查模型是否存在系统性偏见?从更简单,更透明,可解释且无偏差的模型开始,然后逐步过渡到复杂的模型。

 

模型–实验与发展

ML是预防欺诈的强大工具,但如果操作不当,则很容易建立起与目标相反的模型。开发组织的ML肌肉至关重要。

 

原则7:机器学习模型需要一个一致的目标,一个符合总体策略的北极星指标

选择一种将措施和抵消措施结合使用的度量标准,以防止在一个方向上反应过度。例如,团队可以决定增加模型正确捕获的欺诈部分(程度地提高“召回率”),同时确定该模型错误地标记为欺诈的合法客户部分的上限(上限为“误报率”),为了使数字更明确,请根据拒绝好客户的成本和未识别的欺诈行为的成本估算业务产生的成本。

 

原则8:开发多种模型并经常进行重新培训以与欺诈的真实世界保持一致

ML模型试图模仿现实世界,欺诈的现实世界有您的模型应处理的两个现实,首先欺诈特征在不同地区和欺诈类型之间可能有很大差异,如果性能更好,则构建特定于地理和用例的模型,其次,现实世界是动态的,欺诈者不断发展其战术,保持恒定的新数据流以重新训练模型,以确保模型输出的质量不会随时间降低。

 

原则9:向其他具有类似欺诈特征的ML用例学习

团队在欺诈中面临的几乎所有ML建模问题在其他领域都有类似的建议解决方案。尝试这些类似物的想法,以欺诈中类别分布不平衡为例,其中数据中几乎所有记录都属于非欺诈类别。此问题类似于产品缺陷检测之类的情况。或考虑生产中的欺诈模型问题使输出产生偏差,从而影响获取更多数据以进行持续学习的能力这个反事实评估问题是在线广告行业也面临的一个问题,团队将能够找到一些想法进行试验。

 

Prev article

大数据影响员工福利套餐的5种方式

Next article

公司正在从云端带回数据。现在他们需要一个放置它的地方

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务