百度AI亮相全球软件开发大会，侯震宇详解面向AI的基础架构

　　“未来，AI无处不在，基础架构‘无’影随行。”5月6日，在第十届全球软件开发大会上，百度副总裁侯震宇发表题为《面向 AI 的基础架构建设》的演讲，分享AI发展对基础架构的挑战，以及百度在其中的实践经验及解决方案。

　　侯震宇于2003年加入百度，历任新产品研发部架构师、基础架构部主任架构师、百度移动云首席架构师等职务，十几年来始终致力于百度的基础架构建设工作。

　　在演讲中，侯震宇表示，AI是一次巨大的浪潮，在全球范围内都带来了巨大的市场机遇和发展潜力。包括Statista、前瞻产业研究院、中信证券等权威机构的调研数据表明，中国已成为全球第二大潜在的AI市场。用AI带动互联网行业技术创新、推动传统产业升级转型，将是中国AI界接下来面临的一个巨大机遇和挑战。

　　就百度而言，在AI+自动驾驶、AI+家居、AI+教育、AI+医疗、AI+安防等诸多业务场景中，百度已早早展开了探索。例如，百度Apollo已成为目前全球涵盖产业最为丰富、最为全面的自动驾驶平台;小度助手则拥有中国市场规模最大、最繁荣、软硬件一体化的对话式人工智能生态;百度推出的教育智能化解决方案，以百度积累的海量专业内容、精准用户画像为数据基础，整合“ABC(AI, Big data, Cloud Computing)”三大关键技术，深入多个互动场景，打造“人工智能+教育”的智能教育模式，推动AI教育全面落地……这些都是百度推动AI技术快速落地、赋能传统行业取得的成果。

　　为了支持AI时代的业务场景，百度构建了国内体系最完整、功能最全面的人工智能技术开放平台——百度大脑核心技术及开放平台，提供全栈、端到端、软硬结合的AI技术、产品和方案，从深度学习框架、深度学习实训平台、场景化AI能力、定制化训练平台，到软硬一体模组和解决方案等实现全面开放，加速创新AI产品落地，助力企业智能化转型。百度大脑已对外开放了171项领先的AI能力，并通过百度智能云，为互联网、交通、工业、医疗、零售、金融等诸多行业赋能。

　　AI时代的基础架构：无处不在的计算，无处不在的连接

　　从百度的AI实践中可以看到， AI的发展会给基础架构带来了巨大的变化和挑战，需要能够从端到端来提供AI的计算能力，这就要求计算系统从旧有的对海量数据处理能力、对IO高峰值的追求，转变为满足AI训练功能方面IO密集、计算密集、通信密集的需求，和AI推理功能方面大吞吐和低延迟的需求。

　　基于此，侯震宇认为，面对即将到来的AI+5G时代，无处不在的计算将是所有系统的灵魂。真正的计算会发生设备(Device)、边缘(Edge)和云(Cloud)中，因而D-E-C场景将会是接下来需要重点研究的问题;与此同时，包括芯片之间、系统之间、设备之间的互相连接，将帮助将不同场景中的计算连接在一起，产生更大的计算力，推动数据流动，创造出更大的价值。

　　从芯片、到集群系统、再到D-E-C，计算无处不在

　　面对D-E-C场景给计算带来的挑战，百度从芯片、集群系统等多个角度展开了探索。在芯片层面，侯震宇表示，过去，我们用DSL(Domain Specific Language)去针对某个领域，设计出一种表示语言，让它能够更好的描述在这个领域上的场景或数据特征。未来更应该关注的是DSA(Domain Specific Architecture)，即在特定领域场景里架构体系。在这个大的思考下，百度设计出了昆仑芯片，目前昆仑芯片的内存带宽已经达到512G，性能达到260Tops，通过应用定义、场景适配和模块化设计，IP+芯片可覆盖D-E-C场景，同时支持AI训练和推理。

　　在集群系统层面，百度通过打造大规模AI计算集群系统，提供了百万TOPS级算力。在这一系统中，百度自研超级AI计算平台X-MAN、高性能存储池和高速互联，共同构成了百度整体的基础设施;通过计算优化、IO优化、通信优化，实现整体性能加速;集成层面，通过智能调度/ADP、Auto Compiler实现了作业调度和资源分配。

　　在芯片、基础设施、性能优化之上，百度打造了国内唯一完整、全套的深度学习平台PaddlePaddle。PaddlePaddle包括核心框架、工具组件和服务平台三大部分。在核心框架层面，它可以提供开发、训练和预测一整套的技术能力;在此之上，又提供了包括视觉、自然语言等在内的丰富模型，形成完整的模型库，通过模块化的方式提供给使用者，以及包括迁移学习、强化学习、自动化网络结构设计、训练可视化工具、弹性深度学习计算等在内的工具组件;而在服务平台层面，PaddlePaddle则提供了零基础定制化训练和服务平台EasyDL和一站式开发平台AI Studio。通过一整套的框架和服务，百度可以帮助广大开发者和企业利用工具化、平台化的方式，降低深度学习应用门槛，加速推动产业智能化变革。

　　在计算需求的基础上，百度还为AI场景设计了高性能共享存储系统。通过计算与存储硬件分离，实现弹性扩展;通过运用分布式块存储，软硬结合，发挥新存储和网络技术优势;通过共享存储系统，针对AI场景海量小文件优化，支持数据共享访问。

　　针对AI时代计算需求带动的计算架构发展，侯震宇认为，在5G时代，整个D-E-C驱动的泛在计算架构已经基本成型，计算无处不在。有5G的强劲推动，在泛在计算架构中，计算从有边界发展为无边界;计算的中心化和去中心化实现了融合，转变为分层次、一体化的计算;计算和网络也实现了深度融合。

　　芯片互联、系统互联、数据中心互联、5G边缘互联，连接无处不在

　　计算的无处不在的背后，真正可能会推动产生巨大变革的，往往是互联技术。互联让计算连接起来，形成更大的计算力，推动数据流动，产生出更多的价值。因此，连接也无处不在。这个连接既涉及到芯片间的互联、系统间的互联，也涉及到数据中心内外部的互联和5G终端边缘上的互联。

　　据侯震宇介绍，在芯片级系统内部，百度运用了NVLink、PCIe Fabric，以及昆仑芯片自己定义的芯片间互联技术。此外，不久以前，百度宣布同微软、Facebook展开合作，联合制定OAM (OCP Accelerator Module) 标准。该标准用于指导AI硬件加速模块和系统设计，也是用以实现更多芯片卡之间的互联。

　　除了芯片间的互联，百度在云(Cloud)上，也就是数据中心内部，使用了Clos Fabric网络架构，实现了整个数据中心内部高速、无收敛比的互联。同时，把整个基础性资源，包括计算资源、存储资源等全部区分开，提供CPU Memory池，以及更多的存储池。通过前述的高速互联，以及必要的安全隔离，实现了资源共享，从而提升了效率，使整个计算力变得更强大。因而一定意义上来说，网络是真正基础设施最底层的东西，使得基础设施能够面向更大型的AI计算。

　　而在5G时代背景下，从数据中心到边缘节点，再到终端设备、应用场景，存在着从2毫秒到200毫秒不等的延时圈。基于这么大的延时圈，百度通过不同的通信技术，如MEC计算节点、WiFi Node等，去实现更好的通信，支持智慧城市、智慧交通、智能家居等业务的发展。这些也是百度面对5G的浪潮，在基础设施层面目前正在做和计划在做的工作。

　　在演讲的最后，侯震宇表示，在未来，计算无处不在，互联无处不在，百度也将通过努力，让AI无处不在。百度所构建的AI基础架构，“无”影随行。所谓“无”，就是让所有的服务都以云的形式、大平台的形式，无缝地对接给大家，从而以更加简单、更加易用的方式，实现百度AI能力的普惠。

特别提醒：本网内容转载自其他媒体，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。