为机器学习模型准备数据以解决财务欺诈的5个步骤怎么做?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-04-12
步骤1:资料存取
步是释放公司拥有的所有数据。在当今世界,这需要包括实时数据,交易数据,CRM数据,历史数据,社交数据,地理数据,人口统计数据等,与其将数据塞入数据湖或数据仓库中,不如将其变成可访问数据的更好方法是使用数据虚拟化工具,从源头高效地访问数据。
第2步:扭扭,验证,冲洗,重复
访问数据仅仅是开始,来自不同系统的数据需要整理成通用格式,以确保可以建立连接。强大的数据清理和主数据管理将提高数据的价值,为了在ML领域中使用,在添加其他上下文时,数据是的,寻找复杂的新欺诈模式时,可以显示添加值,例如用于付款来源的位置数据,收款人与目标帐户之间的关系,频率模式和休眠时间,增强监督模型提要的经过验证的交易数据可以评估更多的数据功能,以建立更好的模型。
第3步:通过分类使数据保持良好状态
数据是模型准确性的基础,更多的数据对于无监督的模型是有用的,但是对于有监督的模型训练,它也需要是准确的,如果源数据分类不正确,则可能会对模型有效性产生巨大影响,因此在创建模型之前,请先整理好数据。
步骤4:建立有监督和无监督模型,以检测欺诈
下一步是建立可以检测欺诈的模型,这是通过从您如此精心保存的大量历史数据源中提取训练数据集来完成的,监督模型(使用经过验证的“良好”数据)和非监督模型都结合使用,以构建人工智能系统的核心。根据使用情况,算法的选择可能很明显,或者可能是要找到组合之前,需要验证许多不同的算法。像工具数据科学的ML可以帮助加快这一进程,以协助数据科学团队来选择给出结果的模型。
步骤5:但不止于此...
这些模型一旦经过培训,验证和批准,就需要按需部署到实时系统中以实时检查交易,然后欺诈系统针对模型对交易进行评分,并且系统使用阈值来确定处理路径,需要监控结果的有效性,并将结果反馈到模型构建过程中(称为“良好”数据),以不断完善和适应变化的模式。
增强调查功能
步是释放公司拥有的所有数据。在当今世界,这需要包括实时数据,交易数据,CRM数据,历史数据,社交数据,地理数据,人口统计数据等,与其将数据塞入数据湖或数据仓库中,不如将其变成可访问数据的更好方法是使用数据虚拟化工具,从源头高效地访问数据。
第2步:扭扭,验证,冲洗,重复
访问数据仅仅是开始,来自不同系统的数据需要整理成通用格式,以确保可以建立连接。强大的数据清理和主数据管理将提高数据的价值,为了在ML领域中使用,在添加其他上下文时,数据是的,寻找复杂的新欺诈模式时,可以显示添加值,例如用于付款来源的位置数据,收款人与目标帐户之间的关系,频率模式和休眠时间,增强监督模型提要的经过验证的交易数据可以评估更多的数据功能,以建立更好的模型。
第3步:通过分类使数据保持良好状态
数据是模型准确性的基础,更多的数据对于无监督的模型是有用的,但是对于有监督的模型训练,它也需要是准确的,如果源数据分类不正确,则可能会对模型有效性产生巨大影响,因此在创建模型之前,请先整理好数据。
步骤4:建立有监督和无监督模型,以检测欺诈
下一步是建立可以检测欺诈的模型,这是通过从您如此精心保存的大量历史数据源中提取训练数据集来完成的,监督模型(使用经过验证的“良好”数据)和非监督模型都结合使用,以构建人工智能系统的核心。根据使用情况,算法的选择可能很明显,或者可能是要找到组合之前,需要验证许多不同的算法。像工具数据科学的ML可以帮助加快这一进程,以协助数据科学团队来选择给出结果的模型。
步骤5:但不止于此...
这些模型一旦经过培训,验证和批准,就需要按需部署到实时系统中以实时检查交易,然后欺诈系统针对模型对交易进行评分,并且系统使用阈值来确定处理路径,需要监控结果的有效性,并将结果反馈到模型构建过程中(称为“良好”数据),以不断完善和适应变化的模式。
增强调查功能
良好的防欺诈平台使您能够监视交易发生的情况,并轻松生成有关交易和欺诈发生的实时信息的视图,但不仅如此,它还需要通过确保捕获并记录这些可疑交易的上下文和数据以供调查人员来协助不可避免的人为调查,这将加快整个组织的调查过程,以评估那些可疑交易,并以及时有效的方式迅速做出正确的决定。
商业联合会数据分析专业委员会