「科技点亮生活智能改变世界」

我们与您同在：

化繁为简，爆款语聊产品背后的业务逻辑

发布时间：2021-03-09 00:00:00 来源：互联网背景：

　　前段时间，一款主打即时性的音频社交软件火了。

　　音频社交春天将至？

　　作为一款以语音为媒介的社交软件，它的玩法非常简单。在每个房间有主持人、嘉宾、观众三种角色。主持人创建房间后，跟嘉宾聊天，观众可旁听，三种身份经主持人同意后还可转换，主播也可邀请观众上麦互动。他们以语音的形式进行交流，听后即焚。这便是典型的实时语音语聊房场景。

　　那么它的创新点在哪?

　　1、内容与玩法的创新：KOL 红人 VS. 意见领袖

　　2、KOL 红人：草根文化的发展，KOL 红人与普通人相同的生活方式，被更多用户所消费

　　3、意见领袖：通过自己多年的积累和影响力，在某一行业完成行业的带货，是行业中的明星，自带光环，受大家追捧

　　基于内容、玩法、亚文化圈层创新的音频社交赛道，随着 5G 时代对于音频质量的改善或将真正迎来行业爆发的春天，相较文字，语音信息量更大且更具个性化，包含的情绪和信息更丰富，可预见将会创造更多的社交玩法与场景。但快速爆发的实时音视频需求仍然面临挑战，一套成熟的音视频技术体系成为助力产品快速发展的必要保证，与此同时，音频社交的场景催生了新的合规需求，如何保证平台音频内容合规成为产品稳健发展的刚需。

　　一套成熟的技术体系是怎样的？

　　一套音频社交的搭建并不复杂，原有看起来十分高深的音视频与实时互动的技术，已经变得易于接入。

　　这套看似复杂的音频社交逻辑，这里做一下技术程度的拆解。

　　如同我们针对复杂问题的处理，都会先进行分块处理一样，音频社交的技术架构在业务角度也可拆解为：意见领袖的语音交互、意见领袖的语音处理和粉丝的音频获取三个部分来看：

　　1、意见领袖的语音交互

　　在七牛云 QRTC 的实时连麦产品加持下，通过易用的房间创建逻辑建立意见领袖的话题房间，在其他意见领袖的房间加入后，意见领袖们通过线上的连麦房间进行实时的语音互动，并且针对预设话题进行沟通交流。

　　七牛云的 QRTC 在开源的 WebRTC 之上，经过自有研发能力和众多客户的验证，保障了意见领袖们虽身处多地，甚至分别处于不同的国家，亦可保障通信的实时，交互延迟仅在 150ms 左右，让意见领袖虽无法见面，但犹如面对面交流般顺畅。

　　2、意见领袖的语音处理

　　意见领袖的语音交流内容经过云端的优化处理和信息审查之后，将流畅的对话语音通过成熟直播分发网络对外进行分发。

　　在这样云端处理的过程中，既保障了意见领袖们交流信息的完整，亦可完成对信息的内容筛查和优化。

　　3、粉丝的音频获取

　　在七牛云的直播功能承载下，意见领袖们的交流信息，通过语音的形式，呈现在粉丝们的耳边。让意见领袖们的粉丝，如同身处房间内听取自己偶像们的声音。

　　同时，客户端上多年的技术积累，让听众虽身处不同网络环境，都可以以最优的用户体验来获取意见领袖们的对话语音。

　　那么，从接入角度看，语聊房的接入又是怎样的呢?

　　1、意见领袖端的研发接入：

　　这里为研发人员提供 Android、iOS、Web 和小程序等不同系统依赖 SDK 内容，在完成 SDK 引入后，通过以下 5 个步骤的补全实现，即可完成意见领袖端的研发接入：

　　完成音视频核心初始化：用于初始化 SDK 中七牛音视频互动的核心能力;

　　进房：建立房间，并实现意见领袖的上麦。为保障意见领袖彼此的通话质量，目前支持14 位意见领袖的同时交流;

　　发布语音 track：监听并收集意见领袖的语音信息，建立与其他意见领袖的通话;

　　退房：实现意见领袖的退出房间后的多方感知;

　　销毁：实现整体流程结束后的资源回收。

　　2、服务端的业务逻辑处理：

　　在意见领袖端完成房间的创建和进房等操作后，服务端通过以下 3 个步骤的处理，实现多位意见领袖通话内容的直播转推逻辑：

　　接入服务端 SDK，完成鉴权逻辑的支持;

　　完成回调逻辑的支持，用于处理不同房间事件通知的处理;

　　建立合流转推任务，用户意见领袖交流内容，被更多的粉丝收听。

　　3、粉丝端的收听接入：

　　粉丝端七牛云也提供了 Android、iOS 等不同版本的播放器 SDK 的支持，在 SDK 的依赖引入后，通过支持播放器初始化、并且将获取到的直播地址赋值给到播放器的播放链接，就可以完成不同系统的粉丝收听支持。

　　监管之下的内容审核

　　随着国内政策对网络平台言论管理的规范化，社交平台面临的内容审核也越来越严。相比传统的音频内容审核，在语聊房场景中的多人实时语音的在线审核，非常繁杂，尤其是日活较高的社交产品，语音内容审核成本和难度更大。因为语音审核除了基础的文本分类技术外，还有三大基础技术难题，即：

　　语音识别：互联网语音场景常伴有强背景音、语速快、咬字不清、口音严重等情况，相比普通场景，语音识别难度倍增;

　　NLP：涉政、色情、辱骂等违规音频表达变化多端、内容隐晦，对语义理解的要求极高;

　　声纹识别：呻吟、娇喘等色情内容容易混杂在对话、歌声甚至背景音当中，声纹特征细微，难鉴别，需要极强的声纹识别能力。

　　七牛云针对实时音频流的内容审核场景提供色情/广告/涉政/违规等内容的识别，及娇喘类声音的识别能力。并且提供两种方式接入，帮助客户提高审核效率，净化网络环境：

　　直播审核 API - 适用于直播场景。实时监测，3 秒内返回结果;

　　文件审核 API - 适用于语音消息、文件、短视频。可以做到先审后发。

　　音频社交的快速发展得益于语音与文字等传统社交介质的不同优势，对于情绪恰到好处的传达，七牛云作为国内领先一站式云平台即服务(PaaS)提供商，为此类产品提供一整套成熟的音频技术体系与合规技术解决方案，有效助力客户专注业务创新获得快速增长。

特别提醒：本网内容转载自其他媒体，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

从Soul看当代年轻人：交友风尚的轮回

90年代，我坐在大屁股的显示屏前敲着键盘，滴滴答答的在各种论坛和聊天室里面跟不认识的，天南地北......