文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

如何基于数据科学进行用户兴趣分群?爱奇艺算法验证和迭代思路公开

2024-12-01 17:01

关注

全文将围绕下面三点展开:

01 数据科学VS用户兴趣分群

首先通过下图介绍一下数据科学专家的能力范围。

注:图片来源于网络,侵权删

数据科学家的能力主要由三方面:较强的数学功底和数字敏感程度、很强的问题解决能力(包括数据分析、数据建模和数据处理等能力)、很强的业务沟通能力。

虽然数据科学家面对的业务是比较个性化的,但是我们今天将提炼出一个较为通用且具有借鉴意义的课题进行分享——用户兴趣分群,其本质是通过大数据的挖掘和分析,反映出用户对某个主题或事物不同程度的匹配价值和接受程度。其在互联网的各行各业中是比较适用的,例如电商行业、服务行业、内容行业等,也可以应用到一些算法场景提高其准确度和效果,例如广告搜索推荐、运营策略等。

02 基于事实生成的用户兴趣标签

1. 用户兴趣权重标签如何设计?

为了解不同用户的兴趣,采用最典型的方式就是给用户打标。基于不同业务的认知,所提炼出的维度是各异的,但提取的流程类似,例如爱奇艺平台这类内容行业通常按照以下几步提取用户兴趣偏好标签:

通过以上方法得到的结果,便可以反应用户的偏好倾向,得分越高表示该用户对于该主题的偏好更加强烈。

2. 用户兴趣标签的验证与迭代

上面介绍了生成标签的流程方法。在使用该标签之前,我们还需要审视一下这个标签的适用性,例如上述提到的可比性问题。将标签引入到不同业务之前需要进行审视和验证。

对于标签的验证,主要有两种方法:

权重标签更多的是做用户中长期的偏好计算, 对于即时爱好的计算需要采用事实标签。权重标签也存在一些短板:

对于一些个性化的场景,会考虑给业务方提供事实标签,增加属性维度,方便其更灵活使用。

3. 用户兴趣结构化事实标签

上图展示了事实标签,主要分为了显式行为和隐式行为,基本可以通过这些行为去判断用户对某一内容或主题的偏好程度。其中显式行为可以直观表现用户的偏好,而隐式行为虽不能直观表现用户态度,但对于应用场景而言是有意义的统计数据。

03 基于内容聚类的用户兴趣分群探索

我们通过以上方法对用户进行打标之后,如何针对性的做一些内容推送或者运营策略?

1. 用户兴趣圈层分类方法

我们常用的对用户进行分组的思维通常是基于用户属性,根据人口统计学的思想分为少男/少女、男青年/女青年、中高龄等人群。这种分法对于内容平台不够有针对性,因此可以采用第二种圈层方法——基于内容属性进行兴趣圈层。具有以下优势:

2. 圈层聚类方法

对于圈层聚类,首先是对内容进行聚类,如果两个内容的受众群体的重合度较高意味着内容的相似度较高,可划分为同类内容。利用用户圈层聚类系统,可客观、精准定位目标人群,具有以下优势:

通过经典的相似度计算方法可以计算不同内容专辑的用户相似度,但在实际应用中会碰到很多问题,因此通过以下修正提升任意两个内容之间重合度的可比性:

在上述优化方法的基础上,还可以采用层次聚类等聚类方法进行更深层次的优化。通过剪枝线的滑动,控制内容聚合的颗粒度,通过计算两两内容的用户相似度,将用户最相似的内容先聚在一起,依次向上聚集。

以上是一个例子,分别采用了内容聚类方法和标签的方法进行的分类。左图是对于某兴趣圈层用户聚类得到的内容,右图是通过传统标签打标分类得到。可以发现左图的综合归纳的内容和用户特征是可以推测出用户的核心诉求,即求追经典、优质IP等,内容形成一定价值体系,在娱乐同时可以向观众输出观点、产生火花碰撞。与右图的纯类别分类方法相比,更加符合用户需求。

04 问答

Q1:怎么衡量用户标签的业务落地和收益?

A1:在爱奇艺团队中主要应用在两个方向,一个是人工运营和规划上,一个是与算法结合的一些模型应用上以及用户画像挖掘等方向。收益可以体现在利用线上ABTEST得到数据效果,以及人工运营的投放和活动上。

Q2:用户聚类和推荐算法之间是个什么关系?

A2:用户聚类的结果会作为信号直接输入到算法团队,但在推荐层面,模型中其实已经包含大量用户行为和内容选择的信号输入,原始数据中,已经体现了这类用户行为的数据信息。这个内容聚类更多是从业务的角度,相对于打标的方法帮助业务方更好理解其聚类过程。

Q3:如何甄别用户在某兴趣圈层是否为核心人群或边缘人群?

A3:如采用传统权重标签的方法,可以直接通过权重就能表现标签的偏好程度。而对于内容聚类的层面,例如二次元,天然形成一堆相似内容,运营便可以精准投放到该类内容背后的用户。

Q4:一些高热度节目会不会对于用户重叠度分析上带来偏差?

A4:这个问题就是上文提到的关于内容体量的相似度修正,对于体量特别大和特别小的内容需要计算两两内容用户重合度的基准值(期望),去除内容体量的影响。

今天的分享就到这里,谢谢大家。

来源:DataFunTalk内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯