您的位置:首页 > 互联网

击败苹果、AI2等多支强队 百度拿下MRQA 2019阅读理解国际评测冠军

发布时间:2019-08-19 15:07:19  来源:互联网     背景:

  在国际自然语言处理领域颇具影响力的百度,再传捷报,再度夺冠。2019年8月12日,MRQA 2019阅读理解国际评测落下帷幕。得益于自研开源深度学习平台飞桨(PaddlePaddle)的强势助攻,百度以平均 F1 值72.55%,超出第二名近两个百分点的绝对优势获得冠军。同时,在全部12个测试数据集中的10个上均排名第一。

  本届评测吸引了来自苹果公司、艾伦人工智能研究院(AI2)、哈工大讯飞联合实验室、香港科技大学、富士施乐等全球知名企业和高校研究院所队伍的参与,高手如云。

图片包含 屏幕截图

描述已自动生成

  MRQA 2019阅读理解国际评测最终榜单百度排名第一

  MRQA全称是Machine Reading for Question Answering,即问答阅读理解。问答阅读理解是自然语言处理领域当前最热门的研究方向之一,已成为评估机器语言理解能力的重要方式,也是搜索引擎和对话系统等行业应用中的关键技术。第二届MRQA workshop(MRQA 2019) 将于今年11月在自然语言处理领域顶级学术会议EMNLP 2019上举办。本届研讨会在Research Track的基础上,设立了一个新的问答阅读理解评测。与以往仅聚焦于单个数据集的阅读理解评测不同,本次评测主要有两大挑战:

  首先,本次评测包括训练集和测试集共18个阅读理解数据集,覆盖面广,综合难度高。针对语言理解所应解决的不同挑战,评测从多个角度考察了阅读理解模型理解语言的能力。从数据源角度看,其文档来源是多样化的,包括百科、新闻、搜索结果、电影、生物医药甚至演讲脚本。从应用任务角度来看,评测不仅包含了面向问答设计的数据集,还包含了面向信息抽取、语义解析等任务设计的数据集。此外,从语言理解的能力来看,评测除了包含传统的抽取式问答数据集,还包含了多个需要推理和计算的数据集。本次评测可谓机器阅读理解的“十项全能赛”。

  本次评测的18个数据集

  更重要的是,本次评测要求参赛队伍仅可使用6个数据集训练一个统一的阅读理解模型,之后在其它12个分布各异的数据集上测试模型效果。更困难的是,测试阶段中有6个在训练阶段完全没见过的未知来源数据集。数据集分布的巨大差异和测试数据来源的完全未知为参评系统带来了极大的挑战。这样的评测设置重点考察了阅读理解模型的泛化能力。模型的泛化能力通俗来讲就是模型对未知数据的预测能力,它是机器学习模型最重要的性质之一,决定了模型是否真正具备实用性。能够解决好该问题,意味着模型具有了一定的通用能力,在实际应用中面对不确定的数据,也能够达到可用的效果。

  百度D-NET通用“预训练-微调”模型训练框架

  针对上述问题,百度在本次评测中提出了一个通用的“预训练-微调”模型训练框架D(ecathlon)-NET。目前,“预训练-微调”在自然语言处理领域已成为一种新的、被广泛采用的学习范式,即首先在大规模无标签语料上以语言模型为目标进行预训练,然后再针对特定任务,如阅读理解进行针对性的微调。百度提出的D-NET框架主要包括以下优势:

  在预训练阶段,采用了基于飞桨深度学习框架中的多种预训练模型,融合了多种预训练模型的优势,获得了比官方基线更好的效果。

  在微调之前,D-NET引入了针对更多领域数据的进一步预训练,以提升模型在特定领域上的适应性,弥补预训练模型语料分布的局限性。

  在微调过程中,D-NET采用了基于飞桨多任务学习框架进行多任务学习。在多任务学习的过程中利用了其它有标注的自然语言处理数据集(如自然语言推断、段落排序等)学习更好的语言表示,从而提升模型的泛化能力。“预训练-微调”学习范式在微调阶段的一个问题是容易发生灾难性遗忘。因此,D-NET在微调过程中引入了防止灾难性遗忘的机制。

  在微调结束后,D-NET使用飞桨知识蒸馏框架提升单模型效果,以满足本次评测对模型效率的要求。

  D-NET能在本次评测中获得第一,得益于飞桨(PaddlePaddle) “多,快,好,省”的四大优势:

  “多”:飞桨提供了多种预置的预训练模型,方便开发者仅使用几行代码,即可调用各种预训练模型。正是得益于飞桨中的多种预训练模型库,D-NET融合了各种预训练模型的优势,获得了更好的效果。

  项目地址:https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleNLP

  https://github.com/PaddlePaddle/ERNIE

  “快”: MRQA2019技术评测的一大挑战是要处理大规模的阅读理解数据。飞桨的高性能分布式训练框架,帮助开发者可以通过仅仅的几行代码,即可让模型进行分布式训练。值得一提的是,为了克服多节点之间通信带来的性能瓶颈,飞桨从梯度压缩,动态混合精度训练,梯度同步算法等方面进行了多项性能优化,使得训练大规模复杂模型的多机加速比提高至77%,极大地缩短了MRQA2019评测策略调研的周期,提高了实验的效率。

  项目地址:https://github.com/PaddlePaddle/Fleet

  “好”: D-NET的一个核心思想是让模型同时从不同类型的语料、不同的自然语言理解任务中进行学习,并将学习到的知识融会贯通,达到举一反三,增强泛化能力的作用。开发多任务学习最大的痛点就是要灵活地调度参数和任务。为此,飞桨开发了一套针对多任务学习场景的高级库PALM(PAddLe Multi-task,预计在Paddle Fluid 1.6版本中开源,敬请期待),让用户只需要开发几十行代码,就可以轻松完成不同模型间参数和任务的调度。

  “省”: D-NET夺冠的另外一个秘密武器就是飞桨提供的高性能预测引擎和模型压缩库PaddleSlim。PaddleSlim提供了丰富高效的模型压缩算法,可以在不损失预测精度的前提下,通过剪枝,量化,蒸馏等算法,将多个复杂神经网络压缩至一个简单网络,从而提高预测速度并降低显存消耗。除此之外,飞桨还针对不同硬件资源的特点在底层进行了一系列的优化,进一步提升了模型在预测部署时的性能和效率,使得D-NET在最终结果提交阶段,在有限的时间和空间内,可以集成更多复杂模型算法,提升模型在真实预测部署场景的精度和效果。

  项目地址:https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleSlim

  机器阅读理解任务,是衡量机器理解人类语言综合水平的重要方式。MRQA阅读量理解评测取得的进展,将有力推动机器阅读理解技术的发展。同时在产业中,机器阅读理解是构建问答和对话系统的关键技术之一。百度机器阅读理解技术已广泛应用于百度内外,包括搜索、小度音箱等一系列产品中,为数亿用户提供精准问答。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页

本文评论
曙光“液冷方案”获2019“金鼎奖” 建行、工行青睐液冷数据中心
2020年1月9日,2019中国国际金融展“金鼎奖”获奖名单公布。曙光凭借为中国建设银行总行......
日期:01-10
陌陌邀专业健身教练免费开课,一起用运动抗疫
最近一段时间,受到疫情的影响,相信大家大部分的时间都是在家度过的。为了帮助宅家的广大用户拥有......
日期:02-27
游戏营收占比再度缩减,B站的未来靠什么?
年轻人文化社区哔哩哔哩(以下简称“B站”)交出了第三季度的业绩,其营收高速增长,达人民......
日期:11-20
iPhone 11系列为啥不支持5G?李彦宏这番话或许道破天机
近日,备受关注的苹果秋季发布会如期举行,并带来了三款全新 iPhone,其中 iPhone 11 Pro 系列首次......
日期:09-23
AI助力基层医疗发展 李彦宏的承诺正在应验
日前,美国著名财经杂志《财富》发布了2019年“改变世界企业榜”,在全球范围内遴选出52......
日期:08-24
良品铺子2000家门店引领休闲零食品牌争夺战
11月28日,中国证监会官网发布的公告消息,良品铺子股份有限公司(下称“良品铺子”)主板......
日期:12-11
瀑布屏+屏下摄像头OPPO新机曝光!想首发?还得看第三方公司脸色
这两天被“瀑布屏”刷屏,啥叫“瀑布屏”?这个名词还是一个比较新的概念词,大......
日期:07-31
Q1中国云服务头部市场阵营再变,华为云携手恒驰全面开启生态伙伴计划
2020年6月24日14:00-16:30,华为云将联合上海恒驰信息系统有限公司,在上海斯格威铂尔曼酒店共同......
日期:06-17
7 月中国厂商应用出海收入排行:PUBG Mobile 第一,TikTok 入围
8月7日消息 今日,App Annie 发布了 2020 年 7 月中国厂商应用出海收入 30 强。...
日期:08-07
电动牙刷怎么用?精湛工艺、周密考量用起来才舒爽
电动牙刷怎么用?精湛工艺、周密考量用起来才舒爽 在电动牙刷领域,有一款极致精工的产品,它不仅得到了企业家们的一致青...
日期:05-26
索尼A8H OLED电视国内首发 品牌黑科技再次升级
虽然当今大环境总体受疫情的影响,但是依然没有阻挡住索尼前进的步伐,在2020年索尼依然以势不可挡......
日期:07-30
玩抖音刷出前女友!法学博士生起诉抖音多闪
↑↑记者通过抖音账号登录“多闪”后,仅有两个好友的抖音账号,出现了100个“......
日期:03-20
百度战略投资开源中国 对开源社区影响深远
12月6日,开源中国宣布获得一笔来自百度的战略投资。该笔融资将助力开源中国更好地投入开源生态建设......
日期:12-06
微软Avatar Framework下周开启公测,小冰只是框架中第一个原型产品
(2020年1月17日 北京) 微软小冰团队宣布,将于下周三开始,分批启动Avatar Framework的小......
日期:01-17
Nutanix 推出超融合二级存储解决方案 Nutanix Mine
企业云计算领导者 Nutanix(纳斯达克:NTNX)今日在美国安纳海姆 .NEXT 用户大会上宣布推出全新开放式......
日期:05-09
苹果新款AirPods就位:将和13寸新MBA一起下月亮相
虽然疫情依然严重,但苹果正在努力降低此事对自己的影响,毕竟他们今年的新品实在太多。...
日期:04-20
华为云开放鲲鹏移植专家服务Online功能,帮助企业远程鲲鹏移植
“鲲鹏凌云,践行业应用创新升级”,自华为云鲲鹏云服务和解决方案推出以来,越来越多的......
日期:02-06
武汉嫂子,菜来了……本来生活@你
前两天,一位#武汉嫂子#教科书式怒怼的视频火了。 情况大概就是,她怒怼不作为的某工作人员,而且点名直指某超市对她们...
日期:02-25
苏宁易购荣耀618钜惠来袭:全场最高优惠1300元,以旧换新更潮值
一年一度的618年中大促正在火热进行中,苏宁易购平台多款手机数码产品均有优惠。其中,荣耀表现抢眼......
日期:06-17
漏洞银行获评2019年度长宁区 “科技之星”团队
11月15日下午14:00,2019长宁区科创政策宣传会暨上海国际创新创业大赛长宁赛区总结会在长宁民俗文化......
日期:11-21