您的位置:首页 > 电脑软件

中文语音合成最高水平,百度语音技术打造全球首款地图语音定制产品

发布时间:2019-09-20 11:10:21  来源:互联网     背景:

  人工智能技术的落地应用正在向各行业袭来。9月19日,百度地图“‘音’为有你,更有‘AI’”语音定制功能发布会召开,重磅推出全球首个地图语音定制产品。该功能科技范儿十足,用户只需在百度地图App上录制20句话,最快20分钟,即可生成个人完整语音包。换句话说,当你之后出行使用地图功能时,就可以用自己的家人甚至宝宝的定制化语音导航,十一旅游还可以听自己声音的景区解读。

(喊“小度小度”开启语音包录制)

  这是百度语音技术与百度地图的又一次重要融合,让普通大众都可以切身体验科技的酷炫。可体验的科技背后,依赖的是百度大脑全球领先的语音技术打造。AI的加持让地图语音包生产实现了从月级别到分钟级别的突破性进展,也重新定义了语音包的生产模式。那么百度地图国民级众多用户,大家都可以同时发起语音定制需求吗?百度语音如何实现在15分钟这么短的时间内合成定制语音包?为什么百度语音能够实现全球首个地图语音定制?

  现场,百度语音首席架构师贾磊揭秘了这背后的技术:“百度地图语音定制功能基于百度独创的风格迁移技术Meitron模型,其特点主要体现在音色转换、多情感朗读和韵律迁移三个方面,从而让语音合成的门槛大大降低,相信百度语音技术在AI时代拥有无限可能。”

(百度语音首席架构师贾磊)

  具体来说,多情感朗读是指通过MEITRON技术,合成的语音可以注入不同的情感,韵律迁移是指同一个人的声音可以讲出不同风格的文本,音色转换是指可以用少量语音就可以合成一个人的专属音库。因此,语音合成效果变得更加逼真、丰富,用户体验也得到了提升。Meitron技术能够实现个性化的声音跟共有声音空间信息的完美分离和完美重合再现,是个性化语音合成成功的关键。在今年的5月份,基于百度大脑的这一语音技术合成了一位已故老排长的声音,让消逝的声音重现世间,抗战老兵们在分别64年后首次实现了“重逢”。

  众所周知,语音合成技术发展已有数年,至今合成的工业级应用并不成熟,在百度地图这类国民级应用中实现定制化更属首次。此次百度语音技术“一骑绝尘”,推出全球首个地图语音定制产品,其背后的技术进步路径也再次向业界显露。

  从2012年起,百度把深度学习技术DNN技术用于语音搜索,是全世界最早把深度学习技术落地工业化产品的企业之一。到2019年1月,百度在世界范围内首次提出了截断注意力模型SMLTA。这是国际上第一个实现了语音识别领域注意力模型的大规模工业在线产品落地。SMLTA实现从语音的声音信号到输出文字的直接映射,使得句子的整句识别率、方言的识别以及中英文混合的识别率显著提升,从而也让端侧的语音识别成为可能。目前,SMLTA语音模型已在百度输入法和小度智能音箱两款产品上线,使得识别准确率分别提升15%和20%。从2012年DNN的深度学习技术落地百度语音搜索,到SMLTA技术率先解决注意力模型的线上使用问题,概括了百度的语音识别技术从跟随世界AI技术浪潮发展,到领跑世界的整个过程。

  端到端建模的注意力模型具有语言语音一体化建模的优势,识别率较高,同时在嵌入式场合具有很高的应用前景。因此,百度攻克的注意力模型的在线使用的技术难题,也是行业巨头纷纷投入精力研发的领域,但注意力模型一直从未在各大公司的主流产品上广泛使用过。百度公司目前是世界范围内,唯一一家全线产品均采用了基于注意力机制的端到端语音识别建模的高科技公司。

  除了语音识别领域的重大技术突破,在语音合成领域也是行业领先。

  从2016年开始,百度在基于深度学习的语音合成产品落地上持续发力,逐渐开始采用深度学习的离线参数合成、全面深度学习的EMPHASIS声学建模、Tacotron+WaveRNN的联合训练等新技术,最终逐渐开始获得行业领先的语音合成产品体验。百度的云端语音深度学习系统,是世界上第一个能在云端提供大规模WaveRNN实时语音合成服务的系统。

  百度语音信息流的一些音库,已经采用百度领先的在线实时合成WaveRNN技术。百度相对于学术界广泛研究的WaveRNN深度学习技术有一系列的创新。百度的WaveRNN语音生成过程是并行进行的。技术圈众所周知,RNN技术是单点递推的,只有计算完当前的音频点,才能计算下一个音频点。因此WaveRNN的技术本质是一个单点递推的串行过程,是不可并行的。所以在waveRNN技术付诸于线上部署的时候,通常由于计算时间较长、用户等待时间过长,无法线上实时使用。

  百度创新的并行WaveRNN技术,把一句话分成若干个音节,每个音节同时并行合成,从而实现了WaveRNN技术可以线上大规模使用。由于传统WaveRNN合成时候,会有一些的Badcase,比如个别音有一些丢音、爆音或者破音。百度创新了WaveRNN和tacotron模型联合训练的方法,比较好地解决了这一问题,使得WaveRNN的Badcase率大幅度下降。目前这套系统应该说代表了整个中文语音合成的最先进水平。

  相对于传统的语音合成,2016年以前,百度的线上语音合成是有两三个语音库,一男一女,都是新闻腔,并没有悬疑、有声,或是脱口秀。如今的语音合成技术,覆盖了从通用、新闻、有声书、评书、情感电台、北京话等方方面面。声音更加清晰、情感更加自然,多场景、多角色,风起云涌的合成系统提供了全方位的声音服务。

  除了语音合成技术本身,能够基于百度深度学习平台飞桨(PaddlePaddle)实现纯端侧的廉价GPU部署,也是百度地图语音定制功能得以上线的重要原因。逻辑也非常明了,一项技术的工业化应用除了顶级的算法,还要有算力的极大支撑。

  基于深度学习的定制化语音合成产品,需要大量的训练,大量的GPU做算力支撑。如果几百万人同时提出GPU需求,采用大服务器也很难应对。百度把深度学习部署到廉价的GPU卡上,一个GPU卡可能两千块钱,就可以做深度学习,而且是大规模分布部署,实现全景化服务,这也是个性化语音合成技术得以落地的核心和关键。

  一直以来,百度大脑语音技术对内支持语音搜索、信息流、智能音箱、输入法等核心产品,实现了前沿技术的突破与工业级应用的结合。就在上个月,百度智能音箱出货量跃升为全球第二,优质的语音交互能力成为其制胜王牌;今天,百度语音技术再次在地图场景中上线语音定制化产品,这不是第一次语音技术为百度地图赋能。百度语音技术多年的积累和沉淀或正进入爆发期。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页

本文评论
酷狗又曝黑科技让音乐分享动起来!
没有几个黑科技,哪好意思出来玩音乐?作为业内领先的音乐平台,酷狗音乐不但歌多,黑科技也特别多。......
日期:09-14
Python正式宣布采用12 个月的发布周期:一年发布一个大版本
经过漫长且深入的讨论后,有关更改Python语言项目的发布周期已经得出结论:该项目正式宣布采用 12个......
日期:11-04
火狐Firefox 72浏览器将默认阻止指纹脚本
目前,Mozilla已在Firefox 72 Nightly的增强跟踪保护的标准模式中启用了“指纹识别器”选......
日期:11-26
Win10搜索出大问题:加载超时错误 重启也无效!附暂时解决办法
据外媒最新报道称,多名用户报告称Windows 10系统中的Windows Search搜索结果中出现了“This i......
日期:05-13
盘点Windows/Mac OS X/Linux/Unix哪个更好用
对于一台电脑来说,如果说出色的硬件是它的“身体”的话,那么系统就是它的“灵魂...
日期:09-12
高玩用Excel重制《文明1》 ,四核i5占用率100%
根据PC Game的报道,最初的《文明》已有28年的历史,1991年首次在MS-DOS上发布。现在,国外一名高玩......
日期:09-08
谷歌Chrome浏览器获新功能:电脑端复制,手机端粘贴
12月9日消息 如果你用的是Chrome 79浏览器,现在可以在电脑上复制任何文字,然后发送到智能手机上。...
日期:12-09
“美人蝎”挖矿木马上演“美人心计” 腾讯电脑管家精准查杀
如今,各种电脑软件中,图片都是极其常见的数据,优美的风景、风姿绰约的美女,在感受视图大餐的同......
日期:09-29
有一种精准来自惯性——起底百度地图高精定位背后的黑科技
『引言:AI的浪潮势不可挡,在无数大众最熟悉的生活场景中,其实蕴含着许多未被发现的秘密。这些&ld......
日期:11-30
微软 Chromium 版 Edge 浏览器测试“安静通知”
5月12日消息 继Google和Mozilla的脚步之后,微软现在正在测试一项新功能,该功能将在Chromium 版 Ed......
日期:05-12
更懂中国人办公需求,WPS吸引越来越多办公族
“目前,WPS全线产品月活用户超过3亿,云文档每天上传文档量超过5亿,各类办公素材下载量每月......
日期:04-04
聚集办公升级,MAXHUB携“互联网+”行业新应用亮相办公博览会
2018年5月19日~21日,由广东省现代办公设备协会主办的2018广东现代办公行业年会暨大办公博览会在广......
日期:05-22
Chrome新功能标签组下周上线:效率大增 网页强迫症舒服了
5月13日,谷歌在官方专门介绍了即将于下周上线的Chrome浏览器新功能——标签组。...
日期:05-14
iOS 12.1将推送 增加多人视频通话和虚拟双卡功能
10月30日上午消息,苹果公司今天宣布,计划在布鲁克林新品发布会之后向公众推送iOS 12.1。发布会预......
日期:10-30
微软.NET Framework 发布 11 月质量汇总预览
.NET Framework 发布了2019年11月质量汇总预览。此版本包含针对Windows 8.1,Server 2012 R2,Serve......
日期:11-21
金山办公入选2020中国消费者品牌榜“卓越品牌”
近日,《每日经济新闻》美好商业研究中心评选的美好生活2020中国消费者品牌榜对多个行业共189个品牌......
日期:04-01
劫持浏览器、远程控制、视频刷量,这种破解激活工具有毒!
近期,一种兼具劫持浏览器、弹出广告、视频网站刷量、远程控制等多种攻击方式的木马家族悄然袭来,......
日期:01-11
Firefox火狐浏览器实现支持Kiosk模式
根据techdows 报道,Mozilla在 Firefox Nightly 71中增加了Kiosk 模式支持,意味着现在用户可以通过......
日期:10-09
为国产办公应用正名 万兴PDF专家软件评测
近年来,国产办公效率类软件快速崛起,各式各样的办公效率类软件进入职场,但是,就选择一款使用方......
日期:08-21
微星推出曲面电竞显示器:1500R曲率/165Hz刷新率/1ms响应时间
9月3日消息 日前,微星推出了一款新的曲面电竞显示器,型号为MAG Optix G27C4,这款电竞屏曲率为150......
日期:09-03