var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

机器学习和深度学习有关的引人入胜的学科

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-01-07

结合深度学习和概率逻辑进行自我监督的自我监督
大规模标注培训示例是机器学习中的长期挑战,自我监督方法通过利用先验知识自动生成带噪标签的示例来弥补直接监督的不足,深度概率逻辑是用于自我监督学习的统一框架,该框架将未知标签表示为潜在变量,并使用概率逻辑结合了多种自我监督,以使用变分端到端地训练深度神经网络,尽管成功地结合了预先指定的自我监督,但是手动制作自我监督以实现高精度可能仍然是乏味且具有挑战性的,本文提出了自我监督自我监督,添加了自动学习新的自我监督的功能,从初的“种子”开始反复使用深度神经网络来提出新的自我监督。这些可以直接添加(结构化自我训练的一种形式),也可以由人类专家进行验证(如基于特征的主动学习),实验表明能够自动提出准确的自我监督,并且通常可以用很少的人力就能几乎接近监督方法的准确性。

从大型语言模型中提取训练数据
发布大型(十亿参数)语言模型已经在私有数据集上进行训练,这已成为普遍现象,对手可以通过查询语言模型来执行训练数据提取攻击,以恢复单个训练示例,研究人员团队演示了对GPT-2的攻击,GPT-2是在公共互联网刮擦下训练的一种语言模型,并且能够从该模型的训练数据中提取数百个逐字记录文本序列,这些提取的示例包括(公共)个人身份信息(名称,电话号码和电子邮件地址),即使以上每个序列仅包含在训练数据中的一个文档中,我们的攻击也是可能的,该团队全面评估提取攻击,以了解促成其成功的因素,例如,发现较大的模型比较小的模型更容易受到攻击,本文以总结经验教训为基础,训练大型语言模型的可能措施。

分析卷积神经网络内部的表示
我们如何发现并简洁地总结神经网络所学的概念?这项任务在涉及分类的推理领域中的网络应用中非常重要,例如基于fMRI / x射线的医学诊断等,框架用于基于网络对集群学习的概念进行分类的框架一组输入示例,根据它们,为其激活的示例对神经元进行聚类,并在相同的潜在空间中输入所有特征,框架不受监督,可以在没有任何输入功能标签的情况下工作,对于每个输入示例,只需要访问网络的内部激活,即可广泛使用。

走向全自动漫画翻译
日本漫画的机器翻译问题,漫画翻译在机器翻译中涉及两个重要的问题:上下文感知和多模式翻译,由于在漫画中文本和图像以非结构化的方式混合在一起,因此从图像中获取上下文对于漫画翻译至关重要,但是如何从图像中提取上下文并集成到MT模型中仍然是一个悬而未决的问题,此外目前尚没有用于训练和评估这种模型的语料库和基准,本文做出了四点贡献,为漫画翻译研究奠定了基础。

我的老师认为世界是平坦的!解读自动论文评分机制
在过去的二十年中,基于深度学习的自动作文评分系统取得了重大进展,但是很少有研究来理解和解释这些基于深度学习的评分模型的黑匣子性质,近的工作表明,自动评分系统甚至容易出现常识性对抗样本,他们缺乏对自然语言的理解能力,这引发了人们对数以百万计的候选人为改变生活的决策而积极使用的模型的质疑,由于评分是一个高度多模式的任务,因此必须在所有这些模式上对评分模型进行验证和测试。

可解释性方面的进展来发现诸如连贯性
内容和相关性对于自动评分机制以及为何容易受到对抗性样本影响非常重要,我们发现,所测试的系统认为散文不是具有自然语言流和语法结构特征的散文,而是散布在某些单词比其他单词重要得多的“单词汤”中,除去这几个重要单词周围的上下文会使散文失去言语和语法的流向,但是对预测分数的影响很小,还发现由于这些模型在语义上没有世界知识和常识为基础,因此添加诸如“世界是平坦的”之类的虚假事实实际上会增加得分而不是降低得分。

我们发现所测试的系统认为散文不是具有自然语言流和语法结构特征的散文
而是散布在某些单词比其他单词重要得多的“单词汤”中,除去这几个重要单词周围的上下文会使散文失去言语和语法的流向,但是对预测分数的影响很小,还发现由于这些模型在语义上没有世界知识和常识为基础,因此添加诸如“世界是平坦的”之类的虚假事实实际上会增加得分而不是降低得分。我们发现,所测试的系统认为散文不是具有自然语言流和语法结构特征的散文,而是散布在某些单词比其他单词重要得多的“单词汤”中。

除去这几个重要单词周围的上下文会导致散文失去言语和语法的流向
但是对预测分数的影响很小,还发现由于这些模型在语义上没有世界知识和常识为基础,因此添加诸如“世界是平坦的”之类的虚假事实实际上会增加得分而不是降低得分,除去这几个重要单词周围的上下文会使散文失去言语和语法的流向,但是对预测分数的影响很小,还发现,由于这些模型在语义上没有世界知识和常识为基础,因此添加诸如“世界是平坦的”之类的虚假事实实际上会增加得分而不是降低得分,除去这几个重要单词周围的上下文会导致散文失去言语和语法的流向,但是对预测分数的影响很小,还发现由于这些模型在语义上没有世界知识和常识为基础,因此添加诸如“世界是平坦的”之类的虚假事实实际上会增加得分而不是降低得分。

关于生成长文档的扩展摘要
文档摘要的先前工作主要集中在生成文档的简短摘要,虽然这种类型的摘要有助于获得给定文档的高级视图,但在某些情况下还是需要了解其简要要点中无法涵盖的要点的更多详细信息。对于较长的文件,例如研究论文,法律文件或书籍,通常是这种情况,一种生成长论文扩展摘要的新方法,该方法利用文档的层次结构,并通过多任务学习方法将其合并到提取摘要模型中,性能优于或匹配强基准的性能,数据集在这里。

利用主协变量回归改善样本和特征选择

从一大批候选者中选择相关的特征和样本是一项在自动数据分析环境中经常发生的任务,在自动数据分析中,可以使用它来提高模型的计算性能以及可移植性,此目的应用的两种流行的子选择方案:基于特征矩阵的低秩逼近和远点采样的CUR分解,它依赖于对多样化样本的迭代识别,和区分功能对这些无监督方法进行了修改,并遵循与主协变量回归方法相同的精神,合并了受监督的组件,结果表明合并目标信息可提供在监督任务中表现更好的选择,用岭回归核岭回归和稀疏核回归进行了证明,结合简单的监督学习模型的各个方面可以提高更复杂的模型(如前馈神经网络)的准确性。



Prev article

分析如何帮助建立建筑业

Next article

大数据是现代业务的基础

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务