百度又有“大动作”?9月18日,百度正式公布在图神经网络领域取得新突破,提出融合标签传递和图神经网络的统一模型UniMP(Unified Message Passing),在图神经网络权威榜单OGB(Open Graph Benchmark)取得多项榜首,引发业界关注。
Leaderboard for ogbn-products
Leaderboard for ogbn-proteins
Leaderboard for ogbn-arxiv
图神经网络最权威榜单OGB
图神经网络是用于图结构数据的深度学习架构,将端到端学习与归纳推理相结合,有望解决传统深度学习无法处理的因果推理、可解释性等问题,是非常有潜力的人工智能研究方向。但是,这个领域一直缺乏规模比较大且认可度较高的数据集。目前大量的论文仍然在Cora、PubMed、Citeseer等小数据集上进行实验,实验的效果也没有普适性。在此情况下,OGB(Open%20Graph%20Benchmark)应运而生:
权威性高:OGB是由斯坦福大学图神经网络权威Jure%20Leskovec教授团队建立的大规模图学习任务的评测基准数据集,指导委员会包含Yoshua%20Bengio、Will%20Hamilton、Max%20Welling等业界大牛。Jure%20Leskovec教授在NeurlPS%202019大会的演讲中正式对外发布OGB并开源,是目前公认最权威的图学习相关基准测试数据集。
数据丰富:OGB面向不同的图学习任务(包括节点分类,边预测,图分类)分别提供了多个数据集,如学术引用网络、知识图谱、分子图、生物网络等。其中最热门的三个半监督节点分类数据集:商品推荐ogbn-products、论文引用ogbn-arxiv和化学分子ogbn-proteins,对图神经网络研究者有极强的吸引力。
夺榜激烈:OGB吸引了包括斯坦福、纽约大学、加州大学洛杉矶分校、康奈尔大学、亚马逊等多个机构参与打榜;榜单上也诞生了层出不穷的新颖图神经网络结构,如堆积112层的深度图卷积网络DeeperGCN,发表在ICML%202020的多层图网络GCNII,还有多种形式不同的图采样算法。
近日,百度PGL团队创新提出统一消息传递图神经网络模型UniMP,在三大半监督节点分类数据集均荣登榜首。榜单上放出的开源代码与论文地址如下:
UniMP开源代码地址:https://github.com/PaddlePaddle/PGL/tree/main/ogb_examples/nodeproppred/unimp
UniMP论文地址:https://arxiv.org/pdf/2009.03509.pdf
UniMP:统一消息传递模型
在半监督图节点分类场景下,节点之间通过边相连接,部分节点被打上标签。任务要求模型通过监督学习的方式,拟合被标注节点数据,并对未标注的节点进行预测。如下图所示,在一般机器学习的问题上,已标注的训练数据在新数据的推断上,并不能发挥直接的作用,因为数据的输入是独立的。然而在图神经网络的场景下,已有的标注数据可以从节点与节点的连接中,根据图结构关系推广到新的未标注数据中。
一般应用于半监督节点分类的算法分为图神经网络和标签传递算法两类,它们都是通过消息传递的方式(前者传递特征、后者传递标签)进行节点标签的学习和预测。其中经典标签传递算法如LPA,只考虑了将标签在图上进行传递,而图神经网络算法大多也只是使用了节点特征以及图的链接信息进行分类。但是单纯考虑标签传递或者节点特征都是不足够的。
百度PGL团队提出的统一消息传递模型 UniMP,将上述两种消息统一到框架中,同时实现了节点的特征与标签传递,显著提升了模型的泛化效果。 UniMP以Graph Transformer模型作为基础骨架,联合使用标签嵌入方法,将节点特征和部分节点标签同时输入至模型中,从而实现了节点特征和标签的同时传递。
简单的加入标签信息会带来标签泄漏的问题,即标签信息即是特征又是训练目标。实际上,标签大部分是有顺序的,例如在引用网络中,论文是按照时间先后顺序出现的,其标签也应该有一定的先后顺序。在无法得知训练集标签顺序的情况下,UniMP提出了标签掩码学习方法。UniMP每一次随机将一定量的节点标签掩码为未知,用部分已有的标注信息、图结构信息以及节点特征来还原训练数据的标签。最终,UniMP在OGB上取得SOTA效果,并在论文的消融实验上,验证了方法的有效性。
屠榜背后:飞桨图学习框架PGL加持
UniMP基于飞桨图学习框架PGL(Paddle Graph Learning)实现,依托飞桨核心框架以及自研的图引擎。PGL支持十亿节点百亿边的超巨图训练,原生支持异构图Metapath采样以及Message Passing双模式,预置多种业界主流图学习算法以及自研模型如ERNIESage、UniMP等,方便开发者熟悉和使用图神经网络领域模型。
飞桨PGL已经在搜索、广告、信息流、金融风控、贴吧、用户画像、智能地图等场景全面落地,可支持百亿巨图场景。图学习作为通用人工智能算法之一,势必成为这个时代新的基础设施,赋能各行各业,助燃智能经济腾飞。
PGL获得喜人成绩,背后离不开强有力的后盾——飞桨。飞桨是我国首个开源开放、功能完备的产业级深度学习平台,向下对接芯片,能够和芯片进行软硬一体的优化,向上支撑各种应用,助力技术创新和业务发展,可以说是“智能时代的操作系统”。近期,飞桨动态图和API体系全面升级,让开发者可以更便捷地开发、更高效地部署模型。
百度希望有志之士加入PGL,一起共建未来。PGL代码完全开源开放,欢迎欢迎开发者们使用并贡献您的奇思妙想。如果您觉得还不错,欢迎“Star”;如果您有意见需要交流,欢迎“Issue”,PGL开源代码和入门教程链接:
PGL开源代码:https://github.com/PaddlePaddle/PGL
PGL图学习入门教程:https://aistudio.baidu.com/aistudio/projectdetail/413386
特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。