人工智能技术的落地应用正在向各行业袭来。9月19日,百度地图“‘音’为有你,更有‘AI’”语音定制功能发布会召开,重磅推出全球首个地图语音定制产品。该功能科技范儿十足,用户只需在百度地图App上录制20句话,最快20分钟,即可生成个人完整语音包。换句话说,当你之后出行使用地图功能时,就可以用自己的家人甚至宝宝的定制化语音导航,十一旅游还可以听自己声音的景区解读。
(喊“小度小度”开启语音包录制)
这是百度语音技术与百度地图的又一次重要融合,让普通大众都可以切身体验科技的酷炫。可体验的科技背后,依赖的是百度大脑全球领先的语音技术打造。AI的加持让地图语音包生产实现了从月级别到分钟级别的突破性进展,也重新定义了语音包的生产模式。那么百度地图国民级众多用户,大家都可以同时发起语音定制需求吗?百度语音如何实现在15分钟这么短的时间内合成定制语音包?为什么百度语音能够实现全球首个地图语音定制?
现场,百度语音首席架构师贾磊揭秘了这背后的技术:“百度地图语音定制功能基于百度独创的风格迁移技术Meitron模型,其特点主要体现在音色转换、多情感朗读和韵律迁移三个方面,从而让语音合成的门槛大大降低,相信百度语音技术在AI时代拥有无限可能。”
(百度语音首席架构师贾磊)
具体来说,多情感朗读是指通过MEITRON技术,合成的语音可以注入不同的情感,韵律迁移是指同一个人的声音可以讲出不同风格的文本,音色转换是指可以用少量语音就可以合成一个人的专属音库。因此,语音合成效果变得更加逼真、丰富,用户体验也得到了提升。Meitron技术能够实现个性化的声音跟共有声音空间信息的完美分离和完美重合再现,是个性化语音合成成功的关键。在今年的5月份,基于百度大脑的这一语音技术合成了一位已故老排长的声音,让消逝的声音重现世间,抗战老兵们在分别64年后首次实现了“重逢”。
众所周知,语音合成技术发展已有数年,至今合成的工业级应用并不成熟,在百度地图这类国民级应用中实现定制化更属首次。此次百度语音技术“一骑绝尘”,推出全球首个地图语音定制产品,其背后的技术进步路径也再次向业界显露。
从2012年起,百度把深度学习技术DNN技术用于语音搜索,是全世界最早把深度学习技术落地工业化产品的企业之一。到2019年1月,百度在世界范围内首次提出了截断注意力模型SMLTA。这是国际上第一个实现了语音识别领域注意力模型的大规模工业在线产品落地。SMLTA实现从语音的声音信号到输出文字的直接映射,使得句子的整句识别率、方言的识别以及中英文混合的识别率显著提升,从而也让端侧的语音识别成为可能。目前,SMLTA语音模型已在百度输入法和小度智能音箱两款产品上线,使得识别准确率分别提升15%和20%。从2012年DNN的深度学习技术落地百度语音搜索,到SMLTA技术率先解决注意力模型的线上使用问题,概括了百度的语音识别技术从跟随世界AI技术浪潮发展,到领跑世界的整个过程。
端到端建模的注意力模型具有语言语音一体化建模的优势,识别率较高,同时在嵌入式场合具有很高的应用前景。因此,百度攻克的注意力模型的在线使用的技术难题,也是行业巨头纷纷投入精力研发的领域,但注意力模型一直从未在各大公司的主流产品上广泛使用过。百度公司目前是世界范围内,唯一一家全线产品均采用了基于注意力机制的端到端语音识别建模的高科技公司。
除了语音识别领域的重大技术突破,在语音合成领域也是行业领先。
从2016年开始,百度在基于深度学习的语音合成产品落地上持续发力,逐渐开始采用深度学习的离线参数合成、全面深度学习的EMPHASIS声学建模、Tacotron+WaveRNN的联合训练等新技术,最终逐渐开始获得行业领先的语音合成产品体验。百度的云端语音深度学习系统,是世界上第一个能在云端提供大规模WaveRNN实时语音合成服务的系统。
百度语音信息流的一些音库,已经采用百度领先的在线实时合成WaveRNN技术。百度相对于学术界广泛研究的WaveRNN深度学习技术有一系列的创新。百度的WaveRNN语音生成过程是并行进行的。技术圈众所周知,RNN技术是单点递推的,只有计算完当前的音频点,才能计算下一个音频点。因此WaveRNN的技术本质是一个单点递推的串行过程,是不可并行的。所以在waveRNN技术付诸于线上部署的时候,通常由于计算时间较长、用户等待时间过长,无法线上实时使用。
百度创新的并行WaveRNN技术,把一句话分成若干个音节,每个音节同时并行合成,从而实现了WaveRNN技术可以线上大规模使用。由于传统WaveRNN合成时候,会有一些的Badcase,比如个别音有一些丢音、爆音或者破音。百度创新了WaveRNN和tacotron模型联合训练的方法,比较好地解决了这一问题,使得WaveRNN的Badcase率大幅度下降。目前这套系统应该说代表了整个中文语音合成的最先进水平。
相对于传统的语音合成,2016年以前,百度的线上语音合成是有两三个语音库,一男一女,都是新闻腔,并没有悬疑、有声,或是脱口秀。如今的语音合成技术,覆盖了从通用、新闻、有声书、评书、情感电台、北京话等方方面面。声音更加清晰、情感更加自然,多场景、多角色,风起云涌的合成系统提供了全方位的声音服务。
除了语音合成技术本身,能够基于百度深度学习平台飞桨(PaddlePaddle)实现纯端侧的廉价GPU部署,也是百度地图语音定制功能得以上线的重要原因。逻辑也非常明了,一项技术的工业化应用除了顶级的算法,还要有算力的极大支撑。
基于深度学习的定制化语音合成产品,需要大量的训练,大量的GPU做算力支撑。如果几百万人同时提出GPU需求,采用大服务器也很难应对。百度把深度学习部署到廉价的GPU卡上,一个GPU卡可能两千块钱,就可以做深度学习,而且是大规模分布部署,实现全景化服务,这也是个性化语音合成技术得以落地的核心和关键。
一直以来,百度大脑语音技术对内支持语音搜索、信息流、智能音箱、输入法等核心产品,实现了前沿技术的突破与工业级应用的结合。就在上个月,百度智能音箱出货量跃升为全球第二,优质的语音交互能力成为其制胜王牌;今天,百度语音技术再次在地图场景中上线语音定制化产品,这不是第一次语音技术为百度地图赋能。百度语音技术多年的积累和沉淀或正进入爆发期。
特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。