文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

使用Python进行同期群分析(CohortAnalysis)

2023-03-24 12:04

关注

同期群分析

同期群分析概念

同期群(Cohort)的字面意思(有共同特点或举止类同的)一群人,比如不同性别,不同年龄。

在《精益数据分析》中的第2章 创业的记分牌 中介绍了三种分析方法(市场细分、同期群分析以及A/B测试),其中关于同期群分析的讨论可以帮助我们快速了解它的应用场景。

同期群分析:比较的是相似群体随时间的变化。

产品会随着你的开发和测试而不断迭代,这就导致在产品发布第一周就加入的用户和后来才加入的用户有着不同的体验。比如,每个用户都会经历一个生命周期:从免费试用,到付费使用,最后停止使用。同时,在这期间里,你还在不停地对商业模式进行调整。于是,在产品上线第一个月就“吃螃蟹”的用户势必与四个月后才加入的用户有着不同的上手体验。这对用户流失率会有什么影响?我们用同期群分析来寻找答案。

每一组用户构成一个同期群,参与整个试验过程。通过比较不同的同期群,你可以获知:从总体上看,关键指标的表现是否越来越好了。

结合到用户分析层面,比如不同月份获取的用户,不同渠道新增用户,具备不同特征的用户(比如微信里每天至少和10个以上朋友微信的用户)。

同期群分析(Cohort Analysis),将这些具有不同特征的人群进行对比分析,以发现他们在时间维度下的行为差异。

因此,同期群分析主要用于以下2点:

 我们在进行同期群分析的时候,大致可以划分为2个流程:确定同期群分组逻辑和确定同期群分析的关键数据指标

例如:

  1. 按获客月份(按周甚至按天分组)
  2. 按获客渠道
  3. 按照用户完成的特定行为,比如用户访问网站的次数或者购买次数来分类。

关于关键数据指标,需要是基于时间维度下的比如留存、营收、自传播系数等等。

下面是以留存率作为指标的案例示例:

下面是某电商的运营数据,我们将以该数据演示用python进行同期群分析。

同期群分析案例详解:

数据是某电商用户付费日志,日志字段包含日期、付费金额和用户id,已脱敏处理。

数据读取

import pandas as pd

df = pd.read_csv('日志.csv', encoding="gb18030")
df.head()

分析方向

分组逻辑:

这里只按照用户的初始购买月份进行分组,如果日志包含的分类字段更多(比如 渠道、性别或者年龄等),可以考虑更多种分组逻辑。

关键数据指标:

针对此份数据,至少有3个数据指标可以进行分析:

  1. 留存率
  2. 人均付款金额
  3. 人均购买次数

数据预处理

因为我们是按照月份进行分组,所以需要先将日期重采样为月份:

df['购买月份'] = pd.to_datetime(df.日期).dt.to_period("M")
df.head()

计算每个用户在每个月的付费总额:

order = df.groupby(["uid", "购买月份"], as_index=False).agg(
    月付费总额=("付费金额","sum"),
    月付费次数=("uid","count"),
)
order.head()

计算每个用户的首单购买月份作为同期群分组,并将其对应到原始数据上:

order["首单月份"] = order.groupby("uid")['购买月份'].transform("min")
order.head()

计算每条购买记录的时间与首单购买时间的月份差,并重置月份差标签:

order["标签"] = (order.购买月份-order.首单月份).apply(lambda x:"同期群人数" if x.n==0 else f"+{x.n}月")
order.head()

 

两个月份均为时期类型,相减后得到object类型的列,而该列每个元素的类型是pandas._libs.tslibs.offsets.MonthEnd

MonthEnd类型具有属性n能返回具体差值整数。

同期群分析

前面我们说了至少有3个数据指标可以进行分析:

  1. 留存率
  2. 人均付款金额
  3. 人均购买次数

从留存率角度进行同期群分析

通过数据透视表可以一次性计算所需的数据:

cohort_number = order.pivot_table(index="首单月份", columns="标签",
                             values="uid", aggfunc="count",
                             fill_value=0).rename_axis(columns="留存率")
cohort_number

 

注意:rename_axis(columns=None)用于删除列标签的轴名称。rename_axis(columns=“留存率”)则设置轴名称为留存率。

将 本月新增 列移动到第一列:

cohort_number.insert(0, "同期群人数", cohort_number.pop("同期群人数"))
cohort_number

 

具体过程是先通过pop删除该列,然后插入到0位置,并命名为指定的列名。

 在本次的分析中,留存率的具体计算方式为:+N月留存率=+N月付款用户数/首月付款用户数

cohort_number.iloc[:, 1:] = cohort_number.iloc[:, 1:].divide(cohort_number.本月新增, axis=0)
cohort_number

以百分比形式显示,并设置颜色:

out1 = (cohort_number.style
        .format("{:.2%}", subset=cohort_number.columns[1:])
        .bar(subset="同期群人数", color="green")
        .background_gradient("Reds", subset=cohort_number.columns[1:], high=1, axis=None)
        )
out1

至此计算完毕。

从人均付款金额角度进行同期群分析

要从从人均付款金额角度考虑,需要考虑同期群基期这个整体。具体计算方式是先计算各月的付款总额,然后除以基期的总人数:

cohort_amount = order.pivot_table(index="首单月份", columns="标签",
                                  values="月付费总额", aggfunc="sum",
                                  fill_value=0).rename_axis(columns="人均付款金额")
cohort_amount.insert(0, "首月人均付费", cohort_amount.pop("同期群人数"))
cohort_amount.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_amount.iloc[:, 1:] = cohort_amount.iloc[:, 1:].divide(cohort_amount.同期群人数, axis=0)
out2 = (cohort_amount.style
        .format("{:.2f}", subset=cohort_amount.columns[1:])
        .background_gradient("Reds", subset=cohort_amount.columns[1:], axis=None)
        .bar(subset="同期群人数", color="green")
        )
out2

可以看到,12月份的同期群首月新用户人均消费为703.43元,然后逐月递减,到+4月后这些用户人均消费仅11.41元。而随着版本的迭代发展,新增用户的首月消费并没有较大提升,且接下来的消费趋势反而不如12月份。由此可见产品的发展受到了一定的瓶颈,需要思考增长营收的出路了。

一般来说, 通过同期群分析可以比较好指导我们后续更深入细致的数据分析,为产品优化提供参考。

从人均购买次数角度进行同期群分析

依然按照上面一样的套路:

cohort_count = order.pivot_table(index="首单月份", columns="标签",
                                 values="月付费次数", aggfunc="sum",
                                 fill_value=0).rename_axis(columns="人均购买次数")
cohort_count.insert(0, "首月人均频次", cohort_count.pop("同期群人数"))
cohort_count.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_count.iloc[:, 1:] = cohort_count.iloc[:,
                                             1:].divide(cohort_count.同期群人数, axis=0)
out3 = (cohort_count.style
        .format("{:.2f}", subset=cohort_count.columns[1:])
        .background_gradient("Reds", subset=cohort_count.columns[1:], axis=None)
        .bar(subset="同期群人数", color="green")
        )
out3

可以得到类似上述一致的结论。

每月总体付费情况

下面我们看看每个月的总体消费情况:

order.groupby("购买月份").agg(
    付费人数=("uid", "count"),
    人均付款金额=("月付费总额", "mean"),
    月付费总额=("月付费总额", "sum")
)

可以看到总体付费人数和付费金额都在逐月下降。

将结果导出网页或截图

对于Styler类型,我们可以调用render方法转化为网页源代码,通过以下方式即可将其导入到一个网页文件中:

with open("out.html", "w") as f:
    f.write(out1.render())
    f.write(out2.render())
    f.write(out3.render())

如果你的电脑安装了谷歌游览器,还可以安装dataframe_image,将这个表格导出为图片。

安装:pip install dataframe_image

import dataframe_image as dfi

dfi.export(obj=out1, filename='留存率.jpg')
dfi.export(obj=out2, filename='人均付款金额.jpg')
dfi.export(obj=out3, filename='人均购买次数.jpg')

dfi.export的参数:

 整体完整代码

import pandas as pd
import dataframe_image as dfi

df = pd.read_csv('日志.csv', encoding="gb18030")
df['购买月份'] = pd.to_datetime(df.日期).dt.to_period("M")
order = df.groupby(["uid", "购买月份"], as_index=False).agg(
    月付费总额=("付费金额", "sum"),
    月付费次数=("uid", "count"),
)
order["首单月份"] = order.groupby("uid")['购买月份'].transform("min")
order["标签"] = (
    order.购买月份-order.首单月份).apply(lambda x: "同期群人数" if x.n == 0 else f"+{x.n}月")
cohort_number = order.pivot_table(index="首单月份", columns="标签",
                                  values="uid", aggfunc="count",
                                  fill_value=0).rename_axis(columns="留存率")
cohort_number.insert(0, "同期群人数", cohort_number.pop("同期群人数"))
cohort_number.iloc[:, 1:] = cohort_number.iloc[:,1:].divide(cohort_number.同期群人数, axis=0)
out1 = (cohort_number.style
        .format("{:.2%}", subset=cohort_number.columns[1:])
        .bar(subset="同期群人数", color="green")
        .background_gradient("Reds", subset=cohort_number.columns[1:], high=1, axis=None)
        )
cohort_amount = order.pivot_table(index="首单月份", columns="标签",
                                  values="月付费总额", aggfunc="sum",
                                  fill_value=0).rename_axis(columns="人均付款金额")
cohort_amount.insert(0, "首月人均付费", cohort_amount.pop("同期群人数"))
cohort_amount.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_amount.iloc[:, 1:] = cohort_amount.iloc[:, 1:].divide(cohort_amount.同期群人数, axis=0)
out2 = (cohort_amount.style
        .format("{:.2f}", subset=cohort_amount.columns[1:])
        .background_gradient("Reds", subset=cohort_amount.columns[1:], axis=None)
        .bar(subset="同期群人数", color="green")
        )
cohort_count = order.pivot_table(index="首单月份", columns="标签",
                                 values="月付费次数", aggfunc="sum",
                                 fill_value=0).rename_axis(columns="人均购买次数")
cohort_count.insert(0, "首月人均频次", cohort_count.pop("同期群人数"))
cohort_count.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_count.iloc[:, 1:] = cohort_count.iloc[:,
                                             1:].divide(cohort_count.同期群人数, axis=0)
out3 = (cohort_count.style
        .format("{:.2f}", subset=cohort_count.columns[1:])
        .background_gradient("Reds", subset=cohort_count.columns[1:], axis=None)
        .bar(subset="同期群人数", color="green")
        )
outs = [out1, out2, out3]
with open("out.html", "w") as f:
    for out in outs:
        f.write(out.render())
        display(out)

dfi.export(obj=out1, filename='留存率.jpg')
dfi.export(obj=out2, filename='人均付款金额.jpg')
dfi.export(obj=out3, filename='人均购买次数.jpg')

到此这篇关于使用Python进行同期群分析(Cohort Analysis)的文章就介绍到这了,更多相关Python同期群分析内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯