您的位置:首页 > 互联网

BERT和ERNIE谁更强?这里有一份4大场景的细致评测

发布时间:2019-06-17 18:35:11  来源:互联网     背景:

  BERT和ERNIE,NLP领域近来最受关注的2大模型究竟怎么样?刚刚有人实测比拼了一下,结果在中文语言环境下,结果令人意外又惊喜。具体详情究竟如何?不妨一起围观下这篇技术评测。

  1.  写在前面

  随着2018年ELMo、BERT等模型的发布,NLP领域终于进入了“大力出奇迹”的时代。采用大规模语料上进行无监督预训练的深层模型,在下游任务数据上微调一下,即可达到很好的效果。曾经需要反复调参、精心设计结构的任务,现在只需简单地使用更大的预训练数据、更深层的模型便可解决。

  随后在2019年上半年,百度的开源深度学习平台PaddlePaddle发布了知识增强的预训练模型ERNIE,ERNIE通过海量数据建模词、实体及实体关系。相较于BERT学习原始语言信号,ERNIE直接对先验语义知识单元进行建模,增强了模型语义表示能力。

  简单来说,百度ERNIE采用的Masked Language Model是一种带有先验知识Mask机制。可以在下图中看到,如果采用BERT随机mask,则根据后缀“龙江”即可轻易预测出“黑”字。引入了词、实体mask之后,“黑龙江”作为一个整体被mask掉了,因此模型不得不从更长距离的依赖(“冰雪文化名城”)中学习相关性。

 

  除此之外,百度ERNIE还引入了DLM(对话语言模型)任务,通过这种方式来学习相同回复对应的query之间的语义相似性。实验证明DLM的引入对LCQMC(文本相似度计算)系列任务带来了较大的帮助。最终ERNIE采用多源训练数据,利用高性能分布式深度学习平台PaddlePaddle完成预训练。

  2.  亲测

  到底百度ERNIE模型所引入训练机制有没有起到作用,只有实践了以后才知道。为此,我亲自跑了BERT和ERNIE两个模型,在下面的几个场景中得到了预测结果。

  2.1  完形填空

  完形填空任务与预训练时ERNIE引入的知识先验Mask LM任务十分相似。从下图的比较中我们可以看到,ERNIE对实体词的建模更加清晰,对实体名词的预测比BERT更准确。例如BERT答案“周家人”融合了相似词语“周润发”和“家人”结果不够清晰;“市关村”不是一个已知实体;“菜菜”的词边界是不完整的。ERNIE的答案则能够准确命中空缺实体。

 

  2.2 NER ( 命名 识别 )

  在同样为token粒度的NER任务中,知识先验Mask LM也带来了显著的效果。对比MSRA-NER数据集上的F1 score表现,ERNIE与BERT分别为93.8%、92.6%。在PaddleNLP的LAC数据集上,ERNIE也取得了更好的成绩,测试集F1为92.0%,比BERT的结果90.3%提升了1.7%。分析二者在MSRA-NER测试数据中二者的预测结果。可以观察到:

  1.)ERNIE对实体理解更加准确:“汉白玉”不是实体类型分类错误;

  2.)ERNIE对实体边界的建模更加清晰:“美国法律所”词边界不完整,而“北大”、“清华”分别是两个机构。

  Case对比:摘自MSRA-NER数据测试集中的三段句子。B_LOC/I_LOC为地点实体的标签,B_ORG/L_ORG为机构实体的标签,O为无实体类别标签。下表分别展现了 ERNIE、BERT模型在每个字上的标注结果。

 

 

 

  2.3  相似度

  ERNIE在训练中引入的DLM能有效地提升模型对文本相似度的建模能力。因此,我们比较文本相似度任务LCQMC数据集上二者的表现。从下表的预测结果可以看出,ERNIE学习到了中文复杂的语序变化。最终ERNIE与BERT在该任务数据的预测准确率为87.4%、87.0%.

 

  2.4 

 

  最后,比较应用最广泛的情感分类任务。经过预训练的ERNIE能够捕捉更加细微的语义区别,这些句子通常含有较委婉的表达方式。下面展示了PaddleNLP情感分类测试集上ERNIE与BERT的打分表现:在句式“不是很…”中含有转折关系,ERNIE能够很好理解这种关系,将结果预测为“消极”。在ChnSentiCorp情感分类测试集上finetune后ERNIE的预测准确率为95.4%,高于BERT的准确率(94.3%)。

  从以上数据我们可以看到,ERNIE在大部分任务上都有不俗的表现。尤其是在序列标注、完形填空等词粒度任务上,ERNIE的表现尤为突出,一点都不输给Google的BERT。






特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页

本文评论
GMTC全球大前端技术大会在深圳盛大开幕!
12月20日,由极客邦科技旗下InfoQ中国主办的GMTC全球大前端技术大会,在深圳盛大开幕。...
日期:12-22
STYLE 3D赋能新天元面料展销,一键打造手机里的面料商场
鼠标随机一点,一款面料就能全方位展现在眼前,侧面、正面、......
日期:12-10
新一代信创云 数字政府新基座
数字政府是数字中国建设的重要内容,新一代信息技术的快速发展为打造数字政府开辟了新路径,促进了......
日期:06-23
数据中心节能宝典《液冷革命》出版 曙光节能“秘密”全在里面
2019年9月3日,开放数据中心峰会在北京国际会议中心召开,此次峰会时长两天,汇聚了数千名数据中心......
日期:09-05
当贝和泰捷盒子对比评测,最后还是选择当贝
最近一些网友在问,当贝盒子好还是泰捷盒子好?这个问题其实了解过一点的人也都知道答案,现在国内电视......
日期:06-11
“客厅社交”取代走亲访友,聚好看发布“史上最长春节”大数据
“复工潮”的到来,为长达一个月的春节假期画上了句号。近日,海信旗下互联网AI公司聚好......
日期:02-26
左手拎行李右手拿地图,百度地图十一出行预测带你假期畅游
它来了,它来了,它带着七天长假走来了!中秋小长假刚结束,马上又要迎来国庆黄金周。无论是上班族还......
日期:09-17
LIFAair携手育学园,为婴幼儿洁净呼吸开启全新征程
如何确保孩子健康茁壮成长?这是父母在育儿中不得不面临的问题。父母的养育方式对于孩子的成长、发育......
日期:08-26
平安好医生冠名知名健康节目 中医专家分享互联网AI“云问诊”
线上问诊如何实现望闻问切四诊?在最新一期的安徽卫视《健康大问诊》中,平安好医生中医院长,原北京中......
日期:05-14
创新工场联合华为云开营 DeeCamp 2020!李开复、张亚勤与全球AI菁英互动
经过近一个月的严格选拔和紧张筹备,DeeCamp 2020 人工智能训练营正式开营啦!...
日期:06-07
苏宁年货节家电3C跨年狂欢 门店买电器可享“第三件免单”
2019年临近尾声,人们纷纷代入过年的气氛中来,采买年货是大多数家庭的目前的头等大事。今年,年货......
日期:12-25
2019金万维全国伙伴大会圆满落幕,all in 帮我吧战略持续升级!
10月24日,以“持续攀登前行”为主题的2019金万维全国伙伴大会在广州·华钜君悦酒......
日期:10-28
新浪新闻App联合看看新闻聚焦抗疫温暖瞬间
疫情时期,媒体平台除了做好权威发声与实用服务,以公信力和专业性构建公开透明的信息环境外,还要......
日期:03-12
CES2020:海信全场景会议平板亮相,引发智能办公无限畅想
今年,素有“科技界春晚”之称的CES 2020吸引了国内外众多电子厂商前来参展,厂商们带来......
日期:01-10
2019艾瑞(北京)年度高峰会议顺利落幕,金瑞奖榜单出炉!
特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实...
日期:06-18
北京木瓜移动科技股份有限公司荣获2019中国新经济创新势力榜“最佳大数据营销平台”大奖
继2019年1月的“中国新经济创新势力榜”之电商零售榜、交通出行榜、文化娱乐榜评选启动后......
日期:04-30
AppsFlyer 发布 Zero 套餐,为企业提供终身免费的营销工具与API,最大化自有媒体价值
Zero 套餐是 AppsFlyer 零预算营销计划的一部分,通过整合产品与工具,为开发者、营销人员与产品经......
日期:06-12
卡萨帝云鼎空调,您身边的生态呼吸养护专家
越来越多的人关注空调环境健康的问题了,尤其是使用空调的过程中,不少人更关注的还是空调是否具有......
日期:08-10
共享充电宝集体涨价!曾被王思聪嘲讽
(原标题:共享充电宝集体涨价最高5元,用户近1.5亿,曾被王思聪嘲讽)...
日期:08-19
天猫精灵进军时尚圈了!QUEEN智能美妆镜惊艳上海时装周
“天猫精灵,我要化妆。”“天猫精灵,今天紫外线强度如何?”“天猫精灵......
日期:10-15