10月21日,第六届世界互联网大会进入第二天。下午,以眼下大热的人工智能为主题的分论坛“人工智能:开启智能经济新时代”,吸引了众多关注该领域发展现状及未来的听众。现场座无虚席,连通道上都挤满慕名而来的听众,堪称本届大会的“人气王”。百度CTO王海峰出席AI论坛并带来了“一揽子”技术干货。
百度是国内投入最早、技术最强、布局最完整的人工智能领军企业。作为百度人工智能多年技术积累和产业实践的集大成,百度大脑实现了AI算法、计算架构和应用场景的融合创新,成为“软硬一体AI大生产平台”,以飞桨深度学习平台为基础底座,以百度智能云为载体,赋能各行各业的智能化升级。截至目前,百度大脑已开放216项核心AI能力,日调用量突破1万亿次,开发者超过150万,产业用户发布模型超过16.9万个。
在演讲中,王海峰分享了对人工智能技术的通用性特征,以及人工智能进入工业大生产阶段的思考,介绍了百度大脑作为“软硬一体AI大生产平台”的领先技术能力、飞桨深度学习平台的优势、以及产业智能化的丰富成果。他表示,以深度学习为核心基础的新一代人工智能技术,是新一轮科技革命和产业变革的核心驱动力量,呈现出标准化、自动化和模块化的通用性特征,开始进入工业大生产阶段,加速各行各业的智能化进程。
以下为王海峰AI论坛演讲实录:
各位领导、各位专家、各位来宾,大家下午好!
我跟大家分享的题目是《人工智能进入工业大生产阶段》,我知道这个论坛的主题是“人工智能:开启智能经济新时代”,怎么开启?我的观点是如果想让人工智能更快地、更有效地助力经济的发展,需要让人工智能真正像工业大生产的方式进入各行各业的生产环节,进而推动整个生产力的进步,也推动社会的进步。
为了论述我刚才讲的工业大生产阶段,我们先回顾一下人类历史上已经发生过的几次工业革命。我们都知道从200多年以前开始,人类历史上已经发生了三次工业革命,分别为人类带来机械技术、电力技术和信息技术,而且每一次工业革命的核心技术都不限于某一个行业,而是广泛应用于各行各业,应用于人类的工业大生产,进而改变了人们的生产方式、生活方式甚至思维方式。
工业大生产的技术有非常强的通用性,这些技术也呈现出一些显著的特征,比如标准化、自动化和模块化。所以,我认为一个技术同时拥有标准化、自动化和模块化的特征,可以影响各行各业,就具备进入工业大生产阶段的一些基本前提。
人工智能是新一轮科技革命和产业变革的核心驱动力量。百度大脑是百度多年人工智能技术积累和业务实践的集大成,我们从2010年左右就开始布局人工智能相关的各种基础能力,经过多年的积累,在2016年形成初步完善的布局,因而发布百度大脑1.0。发展到今年,百度大脑不仅仅有很强的跟AI相关的各方面“软”能力,同时也开始进入工业大生产的阶段。一方面,百度大脑更多地在与硬件,比如跟芯片、硬件平台进行结合,形成软硬一体的平台;另一方面,是我之后会提到的关于这些技术也逐渐具备了标准化、模块化、自动化的特征,而且已经开始应用于各行各业,显示出通用性。
百度AI大生产平台的一些基本架构包括基本的算力和数据,深度学习平台中的核心框架、工具组件、服务平台;上面有各种相对通用的AI能力,比如跟人的视觉、听觉和感知相关的计算机视觉技术、语音技术,同时也包括跟人的认知相关的自然语言处理、知识图谱等基础技术。在此基础上,还要有定制的训练平台,比如面向各种垂直场景的应用技术进行定制化的平台,此外还有适用于多种场景的多端部署能力,包括云上、端上、边缘上以及各种各样的设备上,从而形成AI的解决方案。
我刚才讲的第一点就是深度学习的平台,我认为深度学习框架和平台是AI时代的操作系统。一方面,它向下对接硬件、芯片,而且为了达到更好的效果,芯片是需要针对深度学习框架技术进行定制优化,从而达到软硬一体优化的更优效果;而向上,深度学习框架和平台承接各种应用,它相当于处在一个比较核心的承上启下位置。所以,我认为它是“智能时代的操作系统”。
百度深度学习平台飞桨经过多年打磨,已形成完善布局,包括基础框架,无论是开发、训练还是预测;产业实践打磨的模型库;端到端的开发套件、工具组件和服务平台。飞桨是一套很庞大的架构,其中有几个方面是我们认为很重要、很领先的技术,开发方面具有开发便捷的深度学习框架;训练方面能支持超大规模深度学习模型训练的技术;还有多端多平台部署的高性能的推理引擎以及产业级的模型库。
开发方面,一方面是组网的编程范式更符合程序员写程序的习惯,所以程序员开发起来非常方便,而且它同时支持动态图和静态图,兼具灵活性和稳定性的优势。另一方面,为了更好设计神经网络结构,我们开发了自动化的网络设计,现在这种自动设计出来的网络已经超越了人类专家设计的网络的效果。
而超大规模的深度学习训练技术已经能支持万亿级参数模型的训练,而且可以做到实时更新。训练出模型以后,我们需要部署、应用,进行各种推理,这时候涉及到多端多平台的部署能力,而且为了在各种场景当中应用得更好,也做了通用架构推理速度的优化。
有了这些基础框架,无论是开发、训练还是推理的能力,在真正应用的时候需要针对各种场景建构各种模型。基于此,飞桨也提供了非常全面的官方支持,经过产业验证的工业级的模型库,而且这种模型库一方面在产业应用中得到很多验证,另外一方面也参加了国际标准测试,得到很多领先的结果。
人工智能技术有感知、认知技术,包括语音、视觉、语言和知识等,这也是百度大脑具备的核心能力。语音方面,我们今年研发的SMLTA多级截断流式注意力模型,使准确率进一步提升,而且不仅在正常的比较安静、标准的环境下得到很好的识别效果,在嘈杂的环境或者中英文混读的情况下也能得到很好的效果。如果大家平时会用语音输入,会发现你只说中文,可能效果很好,但中英文混说的时候效果就要差很多,这是由于语音识别技术能力所决定的。但是,我们现在不断地提升模型,将两种语言混合在一起仍然能得到比较好的效果。
语音合成方面,如果仅仅能够让人听清楚、听得明白,这不是特别难的事,但如果听得很流畅、很舒服而且有不同的音色、风格、情感等,难度就大大提升了。我们研发的语音合成技术,可以将这些要素分别解耦、分别训练,最后形成统一的声音。这时候不仅让声音的自然度更好,同时也可以进行各种定制。
如果大家用过地图的导航,知道一般地图会提供一些标准的声音,但你要想用你的孩子、亲人、朋友或者用任何其他人的定制的声音,并不容易实现。但基于我们现在最新研制的语音合成技术,任何人只要在百度地图app上对着手机说20句话,就可以为你定制模拟说话人声音的合成音。比如你开车的时候,就可以用你孩子的声音帮你导航,快速寻找合适的路线。
视觉技术领域也包括很多方面,比如人脸关键点的识别等,这可以做3D技术,比如这是一个虚拟的主持人。
语言方面,很重要的一点是语义理解,我们研制的持续学习语义理解框架ERNIE,不仅包含深度学习技术,同时也加入了知识、知识图谱等,让ERNIE得到了非常好的效果。
此外,还有交互的技术,比如说百度的对话式交互平台已经有6万多个定制技能,累计交互已有500多亿次。再有是两种语言之间的翻译,我们首创语义单元驱动的上下文感知翻译模型,而且不仅翻译准确,实时性更好。
所有百度AI技术,我们已经通过百度大脑开放平台以及飞桨开源开放平台全面开放,大家都可以基于这些平台开发自己的产品、发展自己的业务。另一方面,我们也依托百度智能云,可以更好地将软硬一体、包括数据、算法、算力结合起来,共同部署这些AI能力。
当然,提到AI,安全方面也非常重要。百度AI安全方面也形成一个完整的布局,从基础层到平台层再到生态层都有很多布局,大家有兴趣可以进一步了解。
整体上,百度AI大生产平台已经开放216项能力,每天的调用量超过万亿次,并有150多万开发者和企业用户发布的大量模型。
AI赋能各行各业,帮助各行各业进入工业大生产时代。大家可以看到,不管是工业、农业、服务业各方面都可以受益于AI能力。
谢谢大家!
特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。