AI 引领的新一代信息技术,正驱动新一轮科技浪潮席卷而来。作为近年来国内发展最为迅速的移动互联网平台之一,小红书乘势而上,目前已经形成了以图文和短视频内容为主的超大型 UGC 社区。在这个独特而活跃的社区里,每天都会产生海量多模态数据及用户行为反馈,催生出兼具价值与挑战的新问题。
当前,大规模深度学习系统正发生着许多令人兴奋的进展。10 月 15 日“小红书 REDtech 青年技术沙龙”活动中,小红书技术副总裁凯奇进行了《大规模深度学习系统技术及其在小红书的应用》分享,为我们揭开 LarC 的“神秘面纱”。
凯奇:小红书技术副总裁,毕业于上海交通大学,曾担任欢聚时代技术副总裁和百度凤巢首席架构师,负责百度搜索广告 CTR 机器学习算法工作。曾任 IBM 深度问答(DeepQA)项目中国技术负责人。
以下内容根据凯奇现场报告整理
1、小红书业务概览
普通人的真实生活体验分享
小红书是一个蓬勃发展的内容社区,大量懂生活、爱分享的人在这里交换着彼此的生活体验和生活态度,并不断吸引着越来越多的用户加入。现在,小红书已经有 2 亿的月度活跃用户,90 后占比 70% 以上,50% 的用户来自于一、二线城市,也有一半来自于三、四线城市,用户构成非常丰富和年轻化。
“普通人”在分享他们“真实”的“生活体验”,是小红书与其他内容平台和社区非常大的一个不同点。首先,分享者都是“普通人”,其次,“真诚分享,友好互动”是小红书社区公约,“真诚”是很重要的一点。这些社区中的分享和我们的线下生活消费有着紧密的联系,比如宝藏书店、或是怎么穿衣搭配、怎么装修、怎么做菜等内容,都是大家的日常“生活体验”。
我们用一些数字也可以去衡量小红书社区这些年的发展,我们看到,笔记发布量从 2018 年到 2021 年是每年都以非常快的速度在增长,2020 到 2021 年,小红书用户笔记发布量同比增长超 150%。
三大主要业务:社区、商业化、电商
在这样一个高速发展的内容社区里,最主要的三大业务就是社区、商业化和电商。
首先,我们的内容社区和内容平台是一个覆盖全生活品类,以 UGC 为主的生活方式内容社区。也因为这种贴合生活和日常消费的“真诚分享”,用户对我们的社区内容有很高的信任度,大家在看到好的生活方式、消费内容、服务和产品等时会被“种草”,我们通过独特的“种草”商业模式带来品牌和效果的转化。
“种草后是不是顺便可以拔个草”,在消费内容的同时,大家也希望能够自然、方便地买到自己心仪的物品,这是我们高效的闭环消费场域,也就是电商这一部分。
2、小红书技术挑战
多模态技术是当前整个 AI 领域广受关注、发展迅速的技术方向之一,UGC 社区和内容生态中包含大量的图文、视频、文字和用户行为信息,产生了海量高质量的多模态数据,因此成为了极佳的实践场景。用户看到好的内容点赞、做的各种搜索行为、对某个视频的观看等等,构成了大量用户实际的反馈。
现在每一天实际通过用户行为产生的反馈样本量都有几百亿的级别。如何在海量的多模态数据中挖掘用户感兴趣的内容和好的商业内容,从这个目标出发,衍生出很多有价值同时也具备挑战性的问题.
我们是怎么去解决这些技术的:
千人千面的实时推荐系统
打开小红书,首先映入眼帘的就是列的瀑布流或者内容流,这些都是推荐系统给大家推荐的内容。据统计,小红书每天产生的用户行为达到几百亿级别的规模。对于这些数据,小红书技术团队使用基于 LarC 的机器学习框架对模型进行训练,根据用户行为中的规律,找出用户感兴趣的内容并推荐给用户。
下图为小红书推荐模型的大概结构。这是一个多任务的机器学习模型,它能够预估用户的点击、停留时长、是否点赞收藏等行为。针对小红书平台产生的海量的系数参数,小红书通过超大规模无冲突的参数服务器,对这些参数进行更新和捕捉。
推荐系统的 Online Training 如下。当用户在浏览信息流的时候,推荐系统会实时捕捉用户的浏览、点击、点赞等行为,这些行为会基于 Flink 实时处理的计算引擎对这些数据进行拼接,从而产生高性能的样本,然后这些样本会被实时送到模型中去做预估。同时,这些短暂累积的样本也会用来做一次非常短暂的 Online Training 以更新模型参数。这些更新后的模型参数会立刻发布到线上,去服务下一次的请求。整个过程是保持在分钟级别的。
业界还有一个经典问题,比如大家浏览推荐内容时经常会发现:为什么密集地推送我以前看过的东西?我看的东西新鲜感不够了怎么办?
在推荐场景中,关注较短的时间周期会使得追打和信息茧房问题严重,小红书技术团队对用户的多元化长短期行为设计了不同的序列建模方式,在多个维度带来了显著提升。此外,关于内容推荐的多样性问题,小红书技术团队将传统的多样性做法从 DPP 改进到 SSD 算法,在信息流推荐的场景中高效地滑窗计算,从而将单篇模型的价值排序转化为整个浏览周期的建模。这背后依赖的是孪生神经网络学习长尾内容的相似性。
相关工作成果我们已经发表在 KDD 2021 会议上,它从单篇价值的预估转变成一个序列价值的预估,从单篇的多样性转变成多篇的多样性,背后也是基于 SSD 算法,以及基于这个孪生神经网络对内容相似性的评估。
多模态泛化的生活搜索引擎
由于小红书社区包含了的大量实际生活当中非常有用的信息,很多用户都会把小红书当作搜索引擎来用。这其中包含一些挑战,比如多种数据形态的搜索、长尾现象严重、意图理解问题等。
现有的图文搜索引擎,通过文字可以搜索图片,但做法都相对简单,通常都是给图片打上文字的标签,然后再做文字的匹配。小红书团队构建的下一代多模态泛生活搜索引擎,它基于对多模态内容深入的理解,通过图文、文字真正搜索视觉的内容,也能够根据用户的特点去做更加个性化的搜索。
什么叫做泛生活知识搜索引擎?比如我们在小红书上看到了一件好看的的衣服或鞋子,想搜一搜它的搭配有哪些,以及在不同场合下它分别展现出怎样的感觉。这是关于生活知识的搜索,同时它又是一个多模态的搜索。
这其中显示的是小红书技术团队规划的多模态,特别是对于搜图片这样的技术架构,其中非常关键的一个依赖是特征多模块,需要依赖大规模的神经网络去做表征学习,对图片中包含的内容,无论是衣服、鞋或是其他商品商品,都能有一个很好的表征。很好的从大量的多模态内容当中检索出相同的商品或者相似的商品,这是我们在搜索上对大规模神经网络的一个应用。
AI 生成更原生的商业内容
与其他平台相比,小红书的商业内容有一个很大的不同点——原生化。所谓原生化,就是从点赞、评论等行为去看,用户对这个内容非常欣赏,可能完全感觉不到它是一个商业内容。但是对于平台上的商家来说,制作这样的商业内容的门槛很高。如何很好地平衡商家的商业意图与生产内容的用户价值,是一个很关键的问题。
为此,小红书技术团队使用了基于大规模神经网络的生成式技术,来帮助商家根据内容去生成更好的和内容。比如商家可以选择进行多个卖点表达,也可以选择突出目标客户群体,或者是喜欢的小红书风格,机器会自动给出建议的,在引用机器创作的后,无论业务效果、点击或者是停留时长都得到了很好的提升,用户也是非常喜欢这样的内容,所以它做到商业和用户价值很好的平衡。
这背后其实是基于大规模的预训练模型,包括业界较为领先的 T5、BERT、GPT 等模型架构,这些模型架构都在小红书海量的多模态数据上进行了训练。一部分的预训练模型用来去做笔记内容理解,一部分预训练模型会被用来去指导生成式模型去生成,这些都是相关技术在商业领域的应用方式。
大规模机器学习平台
上述所有的机器学习内容,其实都是基于小红书技术团队自研的 LarC 机器学习平台。它启动于 2019 年,到了 2020 年和 2021 年,相关的机器学习框架和平台推广到了搜索、推荐、广告等所有领域。2022 年,LarC 实现了平台化。
目前,LarC 机器学习平台的能力已经相当完整,涵盖从底层基础设施到计算框架、资源调度、离线应用以及在线部署多个层面(其中标黄部分代表已经实现)。
借助 LarC 机器学习平台,小红书技术团队希望能够帮所有算法同学迅速、高效地处理海量数据,训练大规模机器学习和深度学习模型。
3、Summary
小红书是高速发展的内容社区,“普通人”、“真实分享”、“生活体验”是它的关键词。
在这样一个具有海量的多模态数据及用户反馈数据场景下,催生出很多前沿技术探索。以上是从大量技术工作当中挑了一些点出来跟大家做分享,其实还有很多内容,希望大家能够从当中对小红书的技术和大规模的深度学习有所了解。