ACL首尔国立大学问答问题中

你和“懂AI”之间,只差了一篇论文

很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。

为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。

读芯术读者论文交流群,请加小编。等你。

这是读芯术解读的第17篇论文

ACLShortPapers

问答问题中基于大规模细粒度监督数据的迁移学习研究

QuestionAnsweringthroughTransferLearningfromLargeFine-grainedSupervisionData

首尔国立大学

SeoulNationalUniversity

通过在不同大型、细粒度的QA数据集上训练迁移学习模型,可以显著提升问答(QA)任务效果。本文使用SQuAD的基本迁移学习技术,在两个经过深入研究的QA数据集WikiQA和SemEval-(任务3A)中实现了当前最优结果。对于WikiQA,我们的模型比以前最佳模型的效果提升了8%。我们同时发现,通过定量结果和可视化分析,更精细的监督方式比粗粒度的监督方式能更好地指导词汇和句法信息学习。本文还展示了一个类似的迁移学习程序在文本蕴含任务上的最新成果。

1引言

问答(QA)问题是自然语言处理(NLP)领域中的一个长期挑战,研究人员在过去几年中为此项任务引入了几个范例和数据集。这些范例在问题、答案的类型以及训练数据的大小上各有不同,如从几百到几百万。

上下文感知QA范式可以通过参考其附带的上下文(段落或句子列表)获得每个问题的答案。在这种情况下,两种最显著的监督类型是粗粒度的句子级别(sentence-level)和细粒度的分词级别(span-level)。在句子级QA中,任务是在候选列表中挑选与问题最相关的句子(Yangetal.,)。在分词级QA中,任务是找到回答问题的给定段落中的最小分词间隔(Rajpurkar等,)。

在本文中,我们通过一个在大型、分词级QA数据集上训练的标准迁移学习模型来处理更粗糙的句子级QA问题。我们证明,目标任务不仅受益于源数据集的规模,而且还受益于细粒度分词监督方法更好学习句法和词汇信息的能力。

对于源数据集,我们预先训练了SQuAD(Rajpurkar等,),一个最近发布的分词监督QA数据集。对于源和目标模型,我们采用BiDAF(Seo等,),数据集排行榜中表现最好的模型之一。对于目标数据集,我们评估了两个最近的QA数据集,WikiQA(Yangetal.,)和SemEval(Task3A)(Nakovetal.,),其与SQuAD具有完全不同的特征。我们的结果显示,WikiQA有8%的提升,SemEval有1%的改善。此外,我们报告了一个在采用类似的迁移学习过程SICK(Marellietal.,)中文本蕴含识别(RTE)的最新技术成果。

2背景和数据

现代机器学习模型,特别是深层神经网络,往往显著受益于迁移学习。在计算机视觉中,对像ImageNet(Deng等,)等大型图像分类数据集进行训练的深层卷积神经网络已被证明可用于初始化其他视觉任务模型,如对象检测(Zeiler和Fergus,)。在自然语言处理中,领域适应性一般是句法解析(McClosky等,)和命名实体识别(Chiticariuetal.,)领域的重要课题。随着分布式表示的普及,诸如word2vec(Mikolov等人,b,a)和glove(Pennington等,)的预训练词向量模型也被广泛地用于自然语言任务中(Karpathy和Fei-Fei,;Kumar等,)。除此之外,我们利用QA数据集初始化模型,并展示标准迁移学习如何在目标QA数据集中实现最优结果。

NLP中有几个QA范例,可以根据用于回答问题的背景和监督方式进行分类。这种背景可以从结构化和有限的知识库(Berant等人,),到非结构化和无界自然语言形式(例如,网络上的文档(Voorhees和Tice,))和非结构化但受限制的(例如,一段或多句话(Hermannetal.,))。神经网络回答的最新进展推进了这些范例中的众多数据集和成功模型(Rajpurkar等,;Yang等,;Nguyen等,;Trischler等,)的产生。这些数据集中的答案类型主要分为三类:句子级,联系上下文分词间隔的和重新生成的。在本文中,我们特别



转载请注明地址:http://www.shouere.com/segs/12530.html
  • 上一篇文章:
  • 下一篇文章:
  • 热点文章

    • 没有热点文章

    推荐文章

    • 没有推荐文章