您的位置:首页 > 互联网

字节跳动开源高性能分布式训练框架BytePS:兼容TensorFlow等主流训练框架

发布时间:2019-06-27 16:38:16  来源:互联网     背景:

  近日,字节跳动人工智能实验室宣布开源一款高性能分布式深度学习训练框架BytePS,在性能上颠覆了过去几年allreduce流派一直占据上风的局面,超出目前其他所有分布式训练框架一倍以上的性能,且同时能够支持Tensorflow、PyTorch、MXNet等开源库。

  BytePS结合了字节跳动人工智能实验室几个月来对分布式训练通信的多个研究与优化成果,包含通信优先级调度、PS的RDMA实现、针对PCIe switch与NUMA的优化,以及BytePS本身构架的创新等。

  深度学习的效果取决于模型与数据,目前行业内不断刷新深度学习准确率的最新研究,大多都基于更大的模型以及更大的数据集。然而,大模型与大数据对训练时的计算能力提出了极高要求,单张GPU卡,或者单台服务器上的GPU卡,已经远远不能够满足内部训练任务的需求。因此,分布式训练的效率,即使用多台服务器协同进行训练,现在成为了深度学习系统的核心竞争力。

  一直以来,在分布式训练中有两大流派,分别是allreduce和PS(Parameter Server)。过去三年中,尤其是百度提出allreduce,以及Uber开源基于allreduce的Horovod之后,行业内的认知中,allreduce是最好的分布式训练通信方式,而过去的PS实现的性能也确实与allreduce存在一定差距。

  BytePS则颠覆了allreduce长期领先的局面,BytePS拥有着超出目前其他所有分布式训练框架一倍以上的性能,包括NVIDIA开源的NCCL,Uber开源的Horovod,以及Tensorflow、PyTorch、MXNet自带的分布式训练方案等。

  BytePS开发团队表示,在公有云或者私有云这类共享集群中,经过精巧设计和高质量实现的PS,PS架构不仅不比allreduce差,而且在一些环境还能得到比allreduce还高一倍的速度。

  测试中,BytePS团队使用了公有云上的虚拟机,每个虚拟机有8张Tesla V100 16GB GPU,GPU之间通过NVLink进行高速互连。每个GPU上的batch size选取为64。虚拟机之间通过20Gbps的TCP/IP网络进行连接。在这种情况下,由于机器之内带宽足够大,TCP/IP的网络带宽则成为了主要瓶颈。

  BytePS选择了Resnet50和VGG16两个模型进行评测,其中Resnet50是计算密集型的模型(对通信要求低,优化空间小),VGG16是通信密集型的模型(对通信要求高,优化空间大),对照组选择了目前市面上最流行的通信框架之一Horovod-NCCL(基于allreduce算法实现),性能指标为每秒钟训练的ImageNet图片数量,越高代表越好。

  通过两组实验结果可以看出,对于计算密集型的Resnet50模型,BytePS性能超过Horovod-NCCL近44%;而对于通信密集型的VGG16模型,BytePS性能可以超过Horovod-NCCL将近100%。

  BytePS团队也在配有100Gbps的RDMA网络的私有集群做了测试,BytePS也有一定的性能提升,具体分析参见Github( https://github.com/bytedance/byteps)。

  除了在性能上超出目前其他所有分布式训练框架外,BytePS可以兼容Tensorflow、PyTorch、MXNet等训练框架。BytePS团队表示,开发者只需要非常少的改动,就可以使用BytePS框架进行分布式训练,享受BytePS带来的高性能。

  此前行业里的PS实现,都是针对特定通用框架,例如专门为TensorFlow实现的PS,也有专门为MXNet实现的PS。

  字节跳动人工智能实验室开源的BytePS,通过实现一个通用的抽象层,抽象层可以被各种通用框架引用,实现了同时支持多个框架的可能性,因此能够支持Tensorflow、PyTorch、MXNet等行业主流训练框架。

  BytePS 提供了 TensorFlow、PyTorch、 MXNet 以及Keras的插件,用户只要在代码中引用BytePS的插件,就可以获得高性能的分布式训练。BytePS的核心逻辑,则实现在BytePS core里。具体的通信细节,完全由BytePS完成,用户完全不需要操心。

  BytePS团队表示,深度学习领域仍然有非常大的空间和可能性值得行业同仁们一起探索,开源BytePS,是希望利用BytePS在性能和功能上的先进性,降低开发者和深度学习领域参与者们的门槛,帮助更多同道中人一起探索深度学习,提升AI应用效率。






特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页

本文评论
京东数科中美两地AI研发双擎再发力 6篇论文入选全球顶会AAAI
日前,人工智能的顶级学术盛会AAAI2020在美国纽约举行。其中,处于国内AI实力第一梯队的京东数字科......
日期:02-14
国美零售(00493.HK)开盘涨幅10.99%
受昨日引入京东战投利好,今日早间,国美零售(00493.HK)跳空高开,以10.99%涨幅在集合阶段报1.01港......
日期:05-29
紫晶存储喜获“中国信息界70家优秀企业”称号 光存储助力数字经济发展
12月13日,2019第二届中国智慧社会发展大会暨中国数字经济高质量发展论坛在北京隆重召开,本次大会......
日期:12-16
5G资费到底贵不贵 这份表格一看就明白
5G这个字眼从出现到现在已经有一段时间了,在这期间有关部门和相关行业都在积极推进5G相关设备研发......
日期:08-29
正月初八春运返程进行时!百度地图大数据显示 北京迁徙规模指数大幅下降20.32
随着春节假期临近结束,许多人已动身返回自己工作的城市,各大交通枢纽再次变得热闹起来。而如今疫......
日期:02-01
高危以上漏洞频发,您的网络空间资产还好吗?
根据CNNVD监测数据显示,2019年上半年新增安全漏洞7859个。其中超危漏洞779个,高危漏洞2364个,中危漏洞3686个,低危漏洞412个,...
日期:08-12
Tech星球:互联网四大「天坑」领域,Soul建立起社交和互动
社交、短视频、搜索、教育,这四大领域和赛道的争夺和挑战从未间断。无论已经成长起来的老牌互联网......
日期:04-09
“五一”宅家“云旅游” 怎么找到好看的旅游直播?
今年的五一小长假正式开启,很多人选择宅家“云旅游”。虽然不用烦心出行和食宿安排,但......
日期:05-01
苏宁冬季热水器节:热水器行业进入“看脸”时代
“好看的皮囊和有趣的灵魂,你选哪一个?”爱情世界的经典难题转嫁到热水器行业,会产生怎......
日期:11-26
WiMi微美全息、商汤科技AI+AR赋能广告游戏新玩法,视觉AI领先全球
如今,随着信息时代的到来,广告已然成为了人们生活中随处可见的一部分,无论是各大社交平台,如微......
日期:08-06
中科曙光发布曙光云舆情分析平台 已通过可信云服务评估
“7000万条信息日采集量、20万个精准信源覆盖,120亿数据库存量,曙光云舆情分析平台将为用户......
日期:03-12
疫情后母婴电商现井喷!企查查数据新增企业环比暴增720.5%I企查查I
2020年是我国“全面两孩”政策实施的第5年,国内的母婴行业暗藏着无限的市场潜力,电子商......
日期:04-30
CSA云安全联盟宣布继续在北京网络安全大会举行全球峰会
美国当地时间2月24日,在全球网络安全盛会RSAC2020大会现场,作为国际云计算业界权威组织CSA云安全......
日期:02-26
新浪新闻app发现频道新增热门板块 发现新闻之外的精彩
近日,新浪新闻app继续拓展新的产品功能,对前不久刚刚上线的发现频道进行了迭代升级,在原有产品基......
日期:12-03
帮客户赚到32个亿,小鹅通生态价值网赋能46万商家
5月8日下午,由流水第一的内容付费技术服务商小鹅通,举办的“定义人才·解锁未来&mdash......
日期:05-08
极光:84.6%的求职者使用至少2个招聘app投递简历
疫情并没有影响到用户的求职预期,用户对求职难度和薪资水平持乐观态度;疫情......
日期:07-03
科学与艺术的结合,你没见过的CPL微距摄影
如果我把这样的图装进画框,挂在墙上,你会不会觉得这是后现代派的油画......
日期:10-11
女神张俪淘宝直播为天猫精灵打call,明星的理想生活你也能轻松get
“天猫精灵,最近有什么歌好听? ”“养什么宠物,养天猫精灵就行了。” 10月14日......
日期:10-15
2019智慧城市创新创业大赛全国30强出炉,总决赛将于10月举行
日前,“2019智慧城市创新创业大赛”区域赛正式收官,经过层层选拔,30家优秀企业从数百......
日期:09-30
五一狂欢 塞宾无线蓝牙降噪麦克风盛惠嗨购
即将到来的“五一”假期情况特殊,既是疫情防控进入常态化阶段的一个长假,也是今年上半......
日期:04-30