无人车的眼睛、UP主的生产力工具，都藏在百度CVPR的这十个冠军里

　　CVPR 上诞生的技术正在逐渐「出圈」。

　　啤酒、烧烤、欧洲杯是很多球迷今年夏天的消暑利器。但你可能想不到的是，那些精彩的进球集锦、球星慢动作回放说不定是 AI 做的。

　　在今年的 CVPR 大会上，百度向我们确认了这一点。

　　他们的 AI 可以在无人工介入的条件下，精准、实时地切分出进球、射门、犯规等动作片段。基于此项能力，团队开发出了一系列应用工具并成功落地，包括：

　　1. 自定义足球精彩集锦生成工具。只需输入球员并选定比赛场次，AI 就能自动生成这个球员的精彩瞬间视频集锦以及慢动作回放。相关产品已经在百度百科 400 多个足球球员和球队页面落地。

　　2. 足球图文战报一键转换视频平台。只需要输入文字直播内容或者直播间地址，AI 就能智能聚合生成对应的视频内容。

　　3. 基于图像场景识别的智能视频生产线。该生产线可以快速理解上传的长视频，检测是否有进球、精准定位视频中的进球瞬间，并完成自动剪辑。

　　最近，这些技术还帮他们拿到了一个重量级赛事的双料冠军。

　　在刚刚闭幕的 CVPR 2021 大会上，百度取得了 SoccerNet-v2 足球视频理解竞赛的全部两项任务的冠军，这是全球首个以足球比赛视频的全方位理解为目标的竞赛。

　　而且，这还只是百度今年 CVPR 成绩单的一部分。

　　作为「中国军团」多年出征 AI 顶会的一员「老兵」，百度在今年的 CVPR 上再次创下新纪录：不仅入选了 22 篇优质论文，还连获 10 个挑战赛冠军，在去年 8 个冠军基础上实现新突破。

　　此外，百度还主办了一场重量级学术 Workshop 和一场 Tutorial，并受邀在大会上做同声传译特邀报告和 PaddleCV 技术分享演讲。

　　这种全方位的发声方式不仅让我们看到了百度在 CV 领域的研究、落地成果，还展示了该公司在 NLP、AutoDL 等领域的前沿探索以及多个领域的融合创新。

　　在这篇文章中，我们就来盘点一下这些内容。

十项 CV 冠军，聚焦自动驾驶、智能交通、智慧城市、智能创作等多个赛道

　　CVPR 2021 覆盖了计算机视觉多个细分领域，百度此次参与并获得了七项挑战赛的十个冠军。其中，六项冠军成果可加速自动驾驶、智能交通、智慧城市等落地和应用，部分成果可助力智能创作工具的打造。

　　六项冠军助力自动驾驶、智能交通、智慧城市应用落地

　　对于百度来说，自动驾驶可以说是 CVPR 舞台上的一项「传统艺能」了。早在 2018 年，百度 Apollo 就占据了 CVPR 自动驾驶的主场;2019 年，Apollo 又在 CVPR 上公开了国内唯一的自动驾驶纯视觉城市道路闭环解决方案——Apollo Lite。这些高光时刻在今年的多项竞赛中得到了延续。

　　在今年取得的十项冠军中，「语义分割、高分辨率人体解析、雾天环境检测」赛道的三项冠军或对百度强化自动驾驶能力有直接的助力。

　　以 AutoNUE 2021 挑战赛的语义分割赛道为例，该赛道聚焦街景图像的语义分割。与普通语义分割数据集不同，街景数据集物体更多，场景更为复杂。针对该赛道的问题，百度提出了基于 CNN 和 Transformer 的融合算法策略，通过异构模型互补方式，实现了驾驶场景特征的更强表达能力，从而提升了分割性能。针对密集目标，百度提出了区域递进算法，将稠密任务切分为若干稀疏子任务，降低了模型复杂度，加速了模型收敛，提升了测试精度。最终，百度以三项测评指标均第一的优势超越其他参赛机构获得冠军。比赛代码也计划不久后开源：https://github.com/PaddlePaddle/PaddleSeg

　　除了复杂的街景，雾霾等极端天气也是阻碍自动驾驶落地的一大难题。本届 CVPR 就有一个专门针对雾霾天气的检测竞赛——UG2+ (SEMI-)SUPERVISED OBJECT DETECTION IN HAZE CONDITIONS。

　　在这场竞赛中，百度使用最新的 Swin Transformer 模型配合 cascade-rcnn 结构作为基础模型并针对任务特点优化了 anchor 选择以提高模型的识别能力，同时使用去雾和非去雾的数据组合进行训练，提升了模型的泛化性能。另外，针对样本不平衡问题，团队使用了基于样本分布的采样平衡方法，有效提升了模型性能。

　　上述竞赛展现的技术能力或已逐渐在百度自动驾驶落地过程中得以展现。目前，在早晚高峰交通流密集路口左转礼让行人，车辆视觉盲区突然窜出行人、车辆等一系列长尾场景中，百度 Apollo 自动驾驶车均能进行良好处置。4 月 13 日，百度 Apollo 拿到了北京市颁发的中国首批夜间及特殊天气测试资质，机器之心也在上个月冒雨体验了一次 Apollo GO 自动驾驶车的夜间试乘。

Apollo 车辆平缓通过车流密集的路口。

　　除了自动驾驶，百度在智能交通、智慧城市方向的技术进展更多地在第五届 AI CITY 智慧城市挑战赛中得以展现。AI CITY 聚焦交通相关的车流统计、再识别、异常事件分析等应用场景，一共 5 个赛道，是百度多次夺冠的「自留地」，今年百度也在车流统计、异常事件检测两个赛道拿到冠军。

　　在车流统计任务中，比赛要求在端上设备上实现整体技术方案，并对端上的速度与效果指标进行综合打分。百度基于复杂场景下路口车辆多目标检测、跟踪技术，实现了分车道的车流统计，并通过模型小型化以及流水线并行化处理流程，实现了性能 + 效果综合提升，最终取得冠军。

　　在异常事件检测赛道中，百度使用双向多粒度融合的异常检测算法，配合视频稳像、区域特取、背景建模等预处理，经过车辆检测及后续跟踪判断异常，并融合撞车判断逻辑找到准确的异常开始时间，最终取得第一。

　　百度表示，此次获得 AI CITY 挑战赛冠军的技术已应用于百度自研的智能交通和智慧城市系统中，系统整合了检测、跟踪、3D 定位、分割、身份重识别、事件分析在内的多项视觉技术，是保障业务落地的坚实基础。

　　SoccerNet-v2 挑战赛冠军支持足球视频创作

　　前段时间，百度智能云曾携云智一体的智能媒体产品和方案亮相第 28 届中国国际广播电视信息网络展览会(CCBN 2021)，展现了一站式智能创作平台等媒体智能化解决方案和创新应用。百度的智能创作平台基于自然语言处理、知识图谱、视觉、语音的整合技术能力，为创作者提供多项能力，助力新闻资讯生产的策、采、编、审、发全流程。在今年 CVPR 的 SoccerNet-v2 足球视频理解竞赛上，该平台的相关技术再次亮相。

　　SoccerNet-v2 下设事件定位(action spotting)和回放溯源(replay grounding)两个任务。事件定位的难点在于有些事件难以分辨(如犯规、越位、射正、射偏)，还有一部分事件并未被直接拍摄到，需要根据上下文来推测。回放溯源的难点则在于回放和原始事件之间可能会相隔长达上百秒，拍摄视角也经常不同，因此不容易匹配。

　　为了解决这些难题，百度研究院图文转视频 VidPress 团队设计了一个两阶段的系统：首先让特征提取器提取足球视频特征，再将提取出的特征作为第二阶段具体任务模块的输入，进行事件定位或者回放溯源。其中，事件定位和回放溯源阶段采用了 Transformer 架构。该架构在两个任务中体现了对视觉语义特征的精确的时序处理能力，优于基线算法中 Siamese 网络的学习能力和训练速度。

　　基于 SoccerNet-v2 挑战赛拿下双料冠军的 AI 技术能力，百度已支持开头提到的自定义足球精彩集锦生成、足球图文战报一键转换视频等应用工具。这项技术能力也已基于智能创作平台进行落地。

　　PaddleCV：优秀方案都到碗里来

　　作为中国人工智能的「头雁」，百度的计算机视觉方向技术研究早在十一年前成立多媒体部时就已经开始了。这帮助百度积累了全方位的技术能力，也为飞桨视觉模型库 PaddleCV 提供了强大的核心动力。

　　PaddleCV 中，既包含经过产业实践长期打磨的主流模型，也包含百度在国际竞赛中的夺冠模型。在 CVPR 2021 的一场技术分享中，百度资深算法工程师为参会者详细分享了 PaddleCV 的技术报告。PaddleCV 作为飞桨重点研发的视觉模型库，为开发者提供了面向图像分类(PaddleClas)、目标检测(PaddleDetection)、图像分割(PaddleSeg)、文本识别(PaddleOCR)、图像生成(PaddleGAN)等视觉场景的多种端到端开发套件和海量视觉方向模型，其中 PaddleOCR 和 PaddleDetection 开发套件更是在能源、金融、工业、农业能众多领域被企业广泛使用。本届 CVPR 各项比赛结束后，部分成果也将在 PaddleCV 中开源。

飞桨全景图与 PaddleCV

演讲、Workshop、Tutorial，全方位展示 AI 前沿探索

　　作为计算机视觉和模式识别领域的世界级学术顶会，CVPR 不仅是业界展示领先科技成果的平台，也是探索学术前沿的平台。在 CVPR 举办的同时，百度不仅积极参与了各项竞赛，还主办了一场重量级学术 Workshop 和一场 Tutorial，并受邀在大会上做同声传译特邀报告。

　　Workshop 的主题是 AutoDL 的核心方向——NAS(神经网络结构搜索)。在之前的 WAVE SUMMIT 2019 深度学习开发者峰会上，百度曾为在内存紧张、功耗受限、存储有限的设备上进行深度学习研究的开发者提供了一份重磅惊喜——一个名为 PaddleSlim 的开源模型压缩工具库。除了支持传统的网络剪枝、参数量化和知识蒸馏等方法外，PaddleSlim 还可以通过 NAS + 蒸馏 + 量化一站式模型压缩产出业界领先的小模型。这些创新方法囊括了很多百度自研的 NAS 算法。借助这些方法，百度视觉团队近两年先后七次在 CVPR 与 ECCV 等国际比赛中夺得世界冠军，并全线应用在各条业务上。这体现了 NAS 这一方向的研究价值。

　　为了推动 NAS 的进一步发展，百度联合悉尼科技大学和美国北卡罗来大学举办了 CVPR 2021 NAS workshop，还举办了首届轻量级 NAS 国际竞赛，探讨了 NAS 的现状和未来。大赛从 NAS 研究的关键问题出发，设置了超网络一致性、模型性能预测、未知数据三大赛道，吸引了全球 59 个国家和地区、超过 600 支队伍在 AI Studio 上参赛。比赛征集到众多优质的 NAS 解决方案，其中，清华大学基于飞桨的方案已在 AI Studio 和 GitHub 平台开源。本次 workshop 不仅有获胜队伍宣讲技术方案，还邀请了马毅、纪荣嵘、黄高、徐畅、Alan Yullie 和 Sara Sabour 等国内外著名学者进行演讲，分享了神经网络结构搜索技术(NAS)领域最新进展和未来动向。

来自百度的 CVPR 2021 NAS workshop 主席开场致辞

　　Tutorial 的主题是「基于能量的生成模型的理论与应用」。提到生成式建模，我们总是第一时间想到生成对抗网络。但近年来，人们对 ConvNet-parametrized EBM(基于能量的生成模型)越来越感兴趣。该框架解决了生成模型在表示、生成、效率和可伸缩性方面的需求。具体来说，与当前流行的生成模型(如生成对抗网络、变分自动编码器)不同，基于能量的生成模型可以将自下而上的表示和自上而下的生成统一为一个框架，并可以通过「analysis by synthesis」进行训练，不需要引入额外的辅助模型。这使得其在算法上更容易直接优化。在这些优势的加持下，该框架已被应用于许多计算机视觉任务中。

　　这场 Tutorial 由百度美国研究院认知计算实验室主办，并邀请加州大学洛杉矶分校统计学系教授 Ying Nian Wu 共同主讲，全面介绍了计算机视觉中基于能量的生成式建模和学习，还列出了基于能量的生成框架所成功解决的不同类型的计算机视觉任务，旨在帮助研究人员将基于能量的学习原理应用于计算机视觉的其他环境。

Tutorial 目录。地址：https://energy-based-models.github.io/

　　同声传译特邀报告的主讲人是百度美国研究院深度学习实验室主任黄亮。报告的内容来源于他在 ACL 2019 大会上作的同名主题报告，其核心是百度研究院在 2018 年取得的同声传译重大突破。这个突破使得低延迟、高质量的同传第一次成为可能，并将同传从一个冷门难题变成了自然语言处理中的一大热门课题。在这次的演讲中，黄亮教授介绍了他所在的团队在此基础上取得的新的进展。

　　演讲地址：https://www.youtube.com/watch?v=QojanA1pZ1o

　　如今，CVPR 2021 已经正式落下帷幕，会议中诞生的 idea 也在陆续走进现实世界。百度表示，在修炼好 AI 技术「内功」的同时，他们将通过搭建起的飞桨和智能云为代表的 AI 平台不断向各行业场景输出技术能力与解决方案，进一步推动产业智能化升级发展，在中国乃至全球 AI 领域持续领跑。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。