9月7日晚间消息,以“AI智享未来”为主题的第二届CTDC首席技术官领袖峰会在乌镇盛大开幕,欢聚时代CTO鲁鹏俊分享了主题为“科技让人们的生活更愉悦”的演讲,展现AI技术在直播领域的应用。
鲁鹏俊认为,目前消费升级已经呈现出线上化趋势,人们的消费需求从生存型消费逐步向发展和享受型消费迁移,娱乐时代已经到来。内容是核心诉求,欢聚时代在人工智能的基础上,围绕内容从三个技术角度进行加强:生产用户想要的内容、做好内容的理解、把好的内容推荐给用户。
鲁鹏俊表示,在对内容的理解上,音视频的需求已经占据主流,在难度上也远大于文字和图片。YY通过识别直播中的音视频内容,建立数据模型对内容进行归类,再根据大量的用户使用习惯,去把相应的内容匹配给用户。AI技术不但能极大节省产品开发试错的成本,还能指导运营进行生态的调控,YY借助AI技术,已经实现用户使用时长的持续增长。
欢聚时代CTO鲁鹏俊
以下是鲁鹏俊的演讲实录:
大家下午好!我是鲁鹏俊,来自于欢聚时代。我今天演讲的题目是《科技让人们的生活更愉悦》。
最近一直在讲消费升级,其实这里有一个数据,就是恩格尔系数。这个系数说的是什么呢?说的是人们的主要消费,主要消费是指衣食住行在整个消费里面的占比,这个占比我们看到从1978年到今天2017年,占比一直在下降,说明人们更多的消费转向于发展和享受型的消费。今天你就会看到有很多消费不停的去买买买,我们电商会很火,因为很多人在时间上会去消费,因为大家有钱了,他不需要去用时间换取食物,他更多的时间是用来享受,所以在时间消费上的变化也会很快。
这曲线是百度搜索的一个曲线,是从2014年到2018年在娱乐上面消费的占比,娱乐的消费一直是在上升的,而且涨得非常快。18年时的时候大概占30%,所以娱乐性在社会整个占比里面越来越重要。时至今日,有很多企业,比如抖音、快手,包含欢聚时代在内的直播公司,非常多公司,今天实际上说明了一点,娱乐化的时代已经到来了。
我们欢聚时代一直是一个娱乐化的公司,从11年开始它就是一个做游戏语音的公司,然后逐渐发展直播,到今年我们把关键词定位在人工智能上。欢聚时代我们有很多很多的内容,除了大家比较熟悉的比如漂亮的小姐姐、很帅气的小哥哥之外,主要的秀场内容之外,其实我们还有很多游戏直播,最近我们也有一个子公司—虎牙在纳斯达克上市。我们也有很多体育内容,我们用户群体非常丰富,除了一线的白领、二线、三线包括学生全部都有,每个用户来到欢聚时代,他们的诉求都不一样。有的是为了打发时间,有的是为了感情倾诉,所以我们欢聚时代就是想用技术的手段,让这些人的需求得到满足,用技术的力量让人们的生活更愉悦。
以前我们欢聚时代一直在提倡“不卡、不掉、不延时”,但是用户来到我们这个网站上,实际上他们是为了得到他们想要的东西,所以内容是核心诉求。我们一定要满足每个用户到我们这里的需求,围绕内容,我们实际上今年从三个角度去做,第一个就是我们怎么生产用户想要的内容,第二个我们怎么做好内容的理解,第三个就是我们怎么把我们好的内容推荐给我们的用户。所有这些内容都是基于在我们的人工智能技术之上。
我们先看内容生产,因为我们主要是以秀场为主,而人们跑到我们这里看直播一定是想得到更美好的东西,所以我们需要有工具帮助我们的主播,让他去更好的生产更美好的内容,所以第一个我们就让这个主播自己变得更美好的这个门槛降低。我们去做很多美颜、瘦身这种工具,让主播变得更美。这里面技术很多,第一个,我们要做人脸的定位,肢体的定位、身体的定位,然后在这上面我们要去做一些美颜的算法,比如怎么去磨皮,怎么把它的轮廓给勾划出来,再在上面去叠加。
第二个,今天的用户有很多需求在改变,但是有一点不会变。因为人们对更高品质的内容的追求永远都是刚需,我们在这个品质上有两个东西要去打造。第一个就是我们要把音质变得更高质,第二个就是我们要把图像变得更高质。我们主要是在做两个东西,一个是降噪,一个是超分辨,这句话里面有很多噪声(音频内容:然而很多经理人努力打拼却依旧还在原地徘徊),这是我们在语音上的一个降噪技术。第二个是超分辨,(音频内容:避开对方雷达追踪的秘诀在于在机体上喷涂的特殊涂料,而这种特殊涂料是日本研制的)。在图像上面我们也有一些高质量的处理,这个是我们对《射雕英雄传》这个电影做了一个超分,左边是超分前的,右边是超分后的。这是我们在更高品质上面在图像上的一个处理。
第三个,我们是要让我们的内容更加丰富,所以我们今天有很多AR技术,包括你比一颗心,一个手势之后出一颗心,都是要从AR上去解决问题。我们还有更多的内容,比如我们口吐篮球,我们前面有一个篮球框,嘴巴一张吐一下,这个东西就会变成一个篮球去投篮,这些东西都是我们今天在去处理的。
内容说完了,生产说完了,我们要对内容进行理解。为什么呢?第一个,我们今天的内容非常非常多,而且很繁杂。第二点,今天是一个音视频的时代,音视频占比非常大。以前我们在文本上面理解的是非常透彻的,但是到了音视频之后,这个门槛就会大大增高。虽然我们有很多的文献,在说他们怎么去牛,但是到今天你要是想完全去理解这个音频或者视频还是非常困难的。对于我们欢聚时代来说,我们有很多的内容,我们今天要重新去理解。因为只有我们理解了这个内容,我们才能够把更好的内容推荐给我们的用户。主播平时在干啥,在这个视频里做了一些啥,他说了一些啥,底下用户在敲字说666的时候,我们要知道这个用户说什么很牛,这些东西都是我们要去理解的。
我们传统的做法就是有很多的人工去打标签,比如说抖音招了四五千人,快手不知道招了多少人,会去打这种标签。但是对于我们来说,我们发现人工标签有一些问题。第一个就是这个粒度非常粗,不够细。打个极端的比方说,假设你所有的内容都打一种标签的时候,这种同质化非常严重。这个时候你是不知道用户喜欢什么,而且这个内容说的是啥。第二个有很多覆盖不全,这是我们欢聚时代的一个标签内容,你会发现“其他”这里面是一个大杂烩,但是里面有非常非常多的内容,我们没有办法去打标签。当它不全的时候,我们完全搞不清楚这个用户要什么。
我们在人工的基础上要用机器去学习,我刚才也说了,我们有很多这种东西要去理解,但是我们今天没有办法,所以我们从最基础的标签开始。这就好象大家平时去学英文,听英文,听一整段话听不懂的时候我们就去听关键词,这是同一个套路。当我们整个音视频理解不了的时候,我们就去理解它的主题,理解这个标签,所以我们在算法层面,我们第一方面就是先把它给聚类,大的粗的类先把它聚好,聚好之后然后送给人工,人工说这一波都是跳舞的,就输入跳舞,我们知道这一波全部是跳舞的。里面有些不知道的就是做一些细微的调整,说这个不是跳舞,这明明是在唱歌,把这个标成唱歌。这个搞完了之后,我们就会把这些数据拿去做一个模型,我们有很多标签模型会帮助我们去把这个东西给标出来。
在语音方面,我们实际上也在做语音识别。语音识别也有很多公司技术也很成熟了,基本上就是一个DAN,上面套上CDC的一个网络,然后就帮助把这个东西给学出来。学完了之后,我们有一个文本的模型,它就会把无论是文本也好还是语音识别出来的文本也好,把它去做一些归类,最后得到我们的标签。这里是一个视频标签的跳舞视频,上面那个dance的标签就是跳舞的概率,这时候已经70%、75%,这个99%了,这个没跳舞的时候上面就是3%,基本上这就是我们今天是在做内容标签一个小小的成果。
一旦有了标签,其实这个标签有很多的应用,非常非常有用。第一个用途,因为标签基本上说的是这个平台的调性,打个比方,我们平台一旦生产了这些标签之后,我们就通过推荐算法,给这个用户去消费,所以我们可以把这些数据统计起来之后,就知道在我们这个平台上,比如跳舞有多少内容,然后有多少用户在使用我们的内容。比如说对于跳舞的这个内容,我们只有十个主播在跳舞,但是我们的用户有一千万,我们就知道这个是一个供不应求的需求,所以我们要让我们的运营引入更多跳舞的主播进来,因为有很多的用户需要这个东西,我们就会去做主播的运营。相反,如果说我们有一百万的跳舞主播,但是我今天只有一个人在这消费这个跳舞的内容,那么我们就知道我们缺少用户,所以我们要去大力的拉喜欢看跳舞的用户到我们的平台上来,我们可以去做各种运营,这是标签第一个非常重要的应用。
第二个希望应用实际是在推荐算法里面的一个应用,打个很简单的比方,比如jeff今天早上花了两个小时看主播跳舞,接着听了三分钟的歌,接着又看了三个小时主播跳舞,我们大概可以推算出来这个杰夫是一个非常喜欢看女主播跳舞的人。当这个人来到YY平台的时候我们就会把正在跳舞的主播排在前面。杰夫的感受就会非常棒,因为他喜欢看跳舞,一上来就有跳舞的主播在给他跳舞,所以他停留的时间就会长,打赏的概率就会变大。
刚才说了内容的生产和理解,接下来我们还是要去把这个内容分发给我们的用户。因为我们要去做一些用户的推荐,这是一个千人千面的事,在内容推荐里面,数据是最最重要的,因为没有这个你啥都干不了。
什么数据对我们很重要呢?第一个数据就是我们用户画像,我们必须要非常精准的知道我们这个用户喜欢什么,他是一个什么样的人。这个数据我们要去收集。第二个数据就是我们主播的画像,我们的内容画像,这是一个什么样的内容,我们刚才说了,做了很多内容的标签,我们在这个地方就会用得上。第三个数据实际上是这个漏斗,在整个推荐算法里面,你要非常关注一个用户来有多少数据在哪个漏斗上面,你才知道你的算法要朝什么样的方向去优化,所以这三个数据是内容推荐非常非常重要的东西。
有了数据之后,什么很重要?我觉得AB策略非常重要。假设我有100个流量,50个走策略A,50个走策略B,你把这些数据跑完了之后,去看一看策略A和策略B哪个好,你就用哪个。以前传统的就是大家会去做很多很多的产品,做很多很多的测试,产品也是一种试错的办法,但是那个成本非常高。如果一旦有了这个工具,就可以帮助你大大缩短试错的成本,因为你去调整一个算法,你马上会知道这个算法是好的还是坏的。
第三个就是模型,模型是核心竞争力,模型能够帮助你去很好的匹配这个用户和内容。我们今天实际上有非常大规模的DAN在我们的平台上面,帮助我们去帮助用户去做好推荐。
最后一个内容是关键,这个东西还是很关键的,第一个就是内容池子你必须要足够的大,很很多企业上来说我要推荐算法,我要做推荐,如果你的内容没那么大的话,推荐没什么用,要不然你人工去排一排,基本上就是了。第二,内容必须要足够多样,如果你的内容都是一样的,推荐算法怎么推都是一样的,你要想看漂亮的小姐姐,如果全部都是漂亮的,你怎么排都一样。第三个就是内容的质量必须要足够的高,如果你的内容质量不高的话,其实也没有用。内容推荐实际上就是做一个千人千面的事,我把这个流程大概分成了三阶段,第一个就是检索,就是帮助你去召回更多的内容,第二个就是你要预测,我要知道这个内容对这个用户来说,它的点击率,它的时长,它的打赏概率有多大,第三个就是排序,你要在里面去做一些规则,去做一些生态的调控,这基本上是整个千人千面的三部分。
我也给大家去看一下我们上了人工智能之后整个平台的一个效果,这是我们的用户观看时长,从今年3月份我们把这个东西上上去,我们的用户时长在我们这个平台上一直在涨,大家可以看到这个趋势还是非常明显的。
双城记开篇说“这是一个最好的时代,这是一个最坏的时代。”对于我们来说,好的一方面就是今天是一个非常新的娱乐时代,我们有很多很多新奇的东西可以看得到。坏的是今天技术都没有那么成熟,我们需要不断的去打磨它。欢聚时代实际上一直在不断的用技术的力量去打磨它,把这个时代所不容易做到的用技术的力量去解决,所以我们的愿景就是用技术让人们的生活更加愉悦。我今天演讲就到这儿,谢谢大家!
声明:本文仅为传递更多网络信息,不代表本站观点和意见,仅供参考了解,更不能作为投资使用依据。