您的位置:首页 > 移动互联

四六级算啥,思必驰语音识别如何听懂“方言”的?

发布时间:2021-07-16 09:43:00  来源:互联网     背景:

  不论是“勒是雾都”的重庆,还是遍地“靓女靓仔”的广东,“吴侬软语”的江浙,方言都是各地极具特色文化名片。一方面,方言附着极大的亲切感,另一方面,方言也承载着各地强烈的情感认同与文化价值。

  科技发展中的语言交流,不能遮蔽地方性的文化和知识。

  考虑方言识别存在文化保护的更高立意,同时也在将老年、弱势群体并入科技生活。思必驰放大全链路语音系统应用在方言的识别、理解、合成上,在家居、银行大厅等应用场景落地,形成了能听懂“方言”的医疗陪伴音箱、智能客服机器人等多样化的产品,可识别粤语、四川话等多种方言。

  语音识别的“软肋”-口音、方言

  语音识别好比机器的“听觉系统”,让机器通过识别、理解,将语音信号转变为可理解的文本。汉语语音识别的研究起始于70年代,经历四十余年发展,得益于技术的演进和海量数据的积累,一般场景下普通话识别都能达到较好的识别效果。但“口音、方言”仍是全球诸多人机交互公司共同面对的挑战。

  为了探究方言、口音对语音识别系统的影响,2018 年华盛顿邮报,Globalme 、Pulse Labs (语音研究公司)合作,对市场主流智能音箱进行测试,事实证明智能音箱不能对方言“通吃”。

图1.jpg

  方言识别究竟难在哪?

  多音多义,使用情境各不同。以中文为例,不仅是在文字使用习惯上(例如,“老后悔了”),读音上也存在差异性(“插”读“擦”,“胡”读“福”)。标准普通话由21个声母和39个韵母组成,上海方言中却包含34个声母和54个韵母,不同方言就是不同数量的声韵母组合。同时,语音识别是一个强场景关联的技术,不同使用情境,方言识别效果存有差异。针对性的声学模型+语言模型训练是一个长期的过程。

图2.jpg

  需要丰富的语料用以训练。可以理解为机器的“词汇量”,思必驰基于多年语音交互领域的研究,积累了大量基于场景化的数据,铢积寸累地汲取方言语料,不断更新、完善语音数据资源库的建设。

  需要持续地研究文化、语素、音素,专业人士、方言专家的参与,会让方言识别效果事半功倍。

  低资源环境,如何保证识别准确率?

  面对低资源环境,如何提升语音识别准确率?思必驰研发了多种跨语言预训练、联合学习、迁移学习的技术,使用较少的数据,来实现方言识别效果的提升。

图3.jpg

  跨语言预训练模型

  跨语言预训练,简言之,就是利用大量的有监督或无监督文本,例如用普通话来作为它的基底得到通用的预训练模型,在此基础上叠加少量的方言数据进行模型训练。伴随后期积累起来的方言、垂直场景数据。“炼丹炉”就可以不断提高模型性能表现,从而提升识别率。

  多语言联合学习,例如考虑到贵州、四川地理位置上的接近性,因而语言近似性较高。在方言数据样本低资源下,思必驰将近似性语言进行联合学习,从而降低模型的识别难度。

  自研的小样本迁移学习技术,用较少的数据量,可以快速实现场景体验优化。例如使用少量带标注的文本数据,即可对标点断句进行优化,相对传统模式调优,节省了83%的数据量。

1626346706107822.png

  使用联合学习和迁移学习的识别后处理技术

  在实际应用中,满足大规模快速自定制的模型,是企业方的切实需求,一是低门槛快速定制,二是能拥有足够的自主权。思必驰方言识别技术,同时具备快速高效的场景化定制能力。通过数据的快速收集和场景模拟,结合自主研发的识别模型自训练系统,短时间内显著提升方言识别模型在应用领域的效果,满足业务需求。

  对于有多语言混合需求的集成商,思必驰运用多混合识别模型,在完成识别特定方言的同时,还可识别普通话,最多支持十多种方言的识别。例如,中川混读模型可以同时识别四川话和普通话。

  目前,思必驰提供基于云+端混合引擎的连续语音识别,支持四川话、粤语、上海话、闽南语、陕西话、山东话等十几种方言识别

  轻松识别方言,让交互更有温度

  探索人机交互的自然、流畅发展,语言的交流一定要足够人性化。

  重庆农商行客服机器人刷屏朋友圈,TA能听懂四川话,顺畅完成余额查询、转账等操作,面对说惯了四川话的老一辈人们,这个功能太友好。

图5.jpg

  基于广泛的生活场景,思必驰与合作伙伴一起将人性化交互的主动权交给用户,聆听更多“新声”。

  在家里,美的空调/热水器烤箱等产品均支持多种方言(粤语,四川话,山东话,上海话)识别,方言转普通话等模式,各色乡音无缝交流。思必驰智能医疗音箱亦能听懂方言、重口音普通话,充当家庭医生安心相伴。

  汽车里,支持四川话的语音识别服务,导航都略带一丝“麻辣味”。某城市地铁站内,自助售票机支持普通话/中英混合/英语/粤川沪等多语种及方言的识别,准确识别“


返回网站首页

本文评论
10年服务600+政务云 华为云赢得政企客户青睐
“加强数字政府建设”、“提高数字政府建设水平”……2021年&ldqu......
日期:06-21
大开粮仓:爱立信拿下35亿美元5G大单 向全球市场进发
(原标题:斩获35亿美元5G大单:爱立信5G攻略首开“粮仓”)...
日期:09-13
被粉圈碰瓷不带怕的,游戏玩家们到底多不好惹
众所周知,“二二七事件”事件在近段时间闹得沸沸扬扬,偶像明星XZ的粉丝们用一己之力搅动了......
日期:03-05
应用宝“猪”年春节红包大放送 三大活动等你来抢!
盼望着,盼望着,春节来了,春节红包的脚步近了。 今年春节应用宝为大家送上了全新的抢红包玩儿法“甩鞭炮 送祝福...
日期:02-02
Me言:探索00后的匿名情感陪伴之路
互联网最初发展的十年,匿名一直是其基本特征。随着互联网进入社交时代,实名社交逐渐成为主流。社......
日期:01-08
以为部署上SSL证书就高枕无忧?你的SSL证书会过期!
在21世纪,人们越来越注重个人隐私的安全性,近些年爆出越来越多数据泄露的问题,已经慢慢开始对普......
日期:11-20
怎么领取葫芦视频会员?当贝市场分享详细教程
最近这段时间,智能电视突然就火了起来,一些智能电视上也紧随这股风潮被大家熟知,其中就包括葫芦视频......
日期:04-10
酷狗认证调音师自制音效超570万人使用,喜提热门音效榜
随着用户个性化听歌需求日益凸显,全民创作热情日渐高涨,今年盛夏酷狗音乐蝰蛇音效5.0更新版全面升......
日期:08-02
浩瀚深度发布鲲鹏网络智能化解决方案
近日,北京浩瀚深度信息技术股份有限公司(以下简称:浩瀚深度)在北京鲲鹏联合创新中心正式发布鲲......
日期:12-15
云之家助力凌创电子全数字化协同平台
这是一家长三角的服务型制造示范企业 近日,凌创入选江苏省服务型制造示范企业名单。服务......
日期:06-29
悟空问答 App 宣布下线:将以头条问答的形式继续运营
1月14日晚间消息,悟空问答发布了《关于悟空问答 App 下线的公告》(以下简称《公告》)。...
日期:01-15
智能风控保卫数据安全 桔多多构建安心智选平台
近日,关于“滴滴出行”APP下架一事引起了大众的广泛热议,从国家互联网信息办公室发布的......
日期:07-06
万物互融时代,您的隐私安全,OPPO安珀实验室来守护
近日,OPPO宣布正式成立OPPO安珀实验室,为全球超3亿ColorOS月活跃用户个人信息保驾护航,携手各方......
日期:11-18
App Annie 《2019 年移动市场报告》:中国应用下载量全球占比过半,收入接近 40%
全球领先的移动应用数据和分析平台 App Annie 今天正式发布《2019 年移动市场报告》,总结了过去一......
日期:01-16
从“听”到“看”  北京移动勾勒出波澜壮阔的建党百年画卷
坚守红色通信初心,献礼建党一百周年。5G时代,手机彩铃从“可听的声音”进化到“可......
日期:06-17
小学生称用照片能开快递柜,丰巢紧急下线刷脸开锁功能
10月16日消息 我们知道,丰巢柜除了可以输入取件码取件之外也提供了刷脸取件。但据杭州新闻客户端报......
日期:10-16
抛弃“特殊情况”的固定宽带,让越来越多人更期待5G
近期,由于单位办公地点的宽带又贵又不好用,于是公司干脆抛弃了固定宽带,改而使用4G路由器来为员......
日期:10-17
三大运营商的提速降费还有多大空间
工业和信息化部公布的《2019年前三季度通信业经济运行情况》显示,经过短暂的微弱负增长之后,前三......
日期:11-18
金融数字化转型之路怎么走?华为云分会场这几位大咖是这么说的
6月4日,华为智慧金融峰会2021“华为云数据使能,加速金融数据资产化”分论坛在上海举办......
日期:06-07
拯救你的暑期出行计划,百度地图新能源导航功能get起来!
时下正值暑期旅游高峰,对于新能源车主来说,“里程焦虑”再度被唤醒,担心车子续航不够......
日期:07-15