文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

肯德尔(Kendall)相关系数概述及Python计算例

2023-09-16 12:04

关注

目录

1. 何谓相关(correlation)?

2. 肯德尔相关 

3. 肯德尔相关的假设

4. 计算公式及代码示例

4.1 Tau-a

4.2  Tau-b       


 

1. 何谓相关(correlation)?

        相关是指一种双变量分析(bi-variate analysis)技术,用于分析两个(随机)变量之间相互关联的强度和方向。相关系数的值域范围为[-1,1],其中绝对值表示相关强度,正负号则表示相关的方向。相关系数为+/-1表示完全的关联。相关系数为0则表示两者完全没有任何关系。

        例1。一般来说,一个人受教育水平越高他的收入就会更高一些(当然这是从统计平均的意义上来说),因此我们可以说收入水平与受教育水平是正相关的。

        例2。一个联赛中各支球队的球员总身价越高,通常球队在联赛中的成绩(排名)就会越靠前,因此我们可以说球员总身价与联赛成绩是正相关的。

        统计学上常用的相关分析有以下几种:

        本文讨论肯德尔相关(系数)。 

2. 肯德尔相关 

        也称肯德尔秩相关(Kendall Rank Correlation),肯德尔相关系数通常也称为“Kendall’s tau coefficient”,顾名思义,肯德尔相关系数通常用希腊字母gif.latex?%5Ctau来表示(斯皮尔曼相关系数则用gif.latex?r来表示,在scipy.stats中两个相关系数计算的函数名kendalltau()和spearmanr()非常清楚地)。 

        与斯皮尔曼秩相关相似的是,肯德尔相关也是一种秩相关系数,是基于数据对象的秩(rank)来进行两个(随机变量)之间的相关关系(强弱和方向)的评估。所分析的目标对象应该是一种有序的类别变量,比如名次、年龄段、肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)等。

        不同的是,斯皮尔曼相关是基于秩差(比如说,小明在班级中的历史成绩排名为10,英语成绩排名为4,那么在这个班级的学生的历史成绩和英语成绩的斯皮尔曼相关分析中,小明的成绩的贡献就是(10-4=6) )来进行相关关系的评估;而肯德尔相关则是基于样本数据对之间的关系来进行相关系数的强弱的分析,数据对可以分为一致对(Concordant)和分歧对(Discordant)。

        比如说变量X的两个样本值记为gif.latex?x_1%2C%20x_2,与之相对应的变量Y的两个样本值分别记为gif.latex?y_1%2C%20y_2

        一致对(Concordant)是指两个变量的这一对样本值取值的相对关系一致,可以理解为gif.latex?x_2-x_1gif.latex?y_2-y_1有相同的符号,即gif.latex?%28x_2%20-%20x_1%29%28y_2-y_1%29%20%5Cgeq%200

        分歧对是指这一对样本值取值的相对关系不一致,即gif.latex?%28x_2%20-%20x_1%29%28y_2-y_1%29%20%3C%200

        当数据样本比较小,而且存在并列排位(tied ranks,比如说小明的历史成绩和英语成绩排名都是第8名)时,肯德尔相关系数是比斯皮尔曼相关系数更合适的一个相关性衡量指标。

 

        适合于采用肯德尔相关系数分析的一些问题例如下所示:

  1. 学生的考试成绩分级 (A, B, C…) 和他平均每天学习所投入的时间分级 (<2 hours, 2–4 hours, 5–7 hours…)时间的相关性
  2. 顾客满意度 (比如说:非常满意,比较满意,一般。。。) 以及递送时间 (< 30 Minutes, 30 minutes — 1 Hour, 1–2 Hours etc)
  3. 。。。

3. 肯德尔相关的假设

        在适用肯德尔相关分析前首先要检查数据是否满足以下基本假设,满足了这些基本假设才能确保你所得到的相关分析结果是有效的。

  1. 变量数据是有序的( ordinal) 或者是连续的continuous). 有序尺度(Ordinal scales )的数据通常用于用数值的方式来衡量非数值的概念,比如说,满意度,幸福度等等,还有像成绩排名啊、比赛名次啊之类的。而连续尺度的数据就勿需解释了,常见的温度啊、体重啊、收入啊等等都(或严格、或近似)算是连续尺度的数据
  2. 两个变量的数据之间应该遵循单调关系( monotonic relationship)。 简而言之就是,其中一个变量的值增大,另一个也增大,这个称为正相关;或者一个变量的值增大,另一个就变小,这个称为负相关。当然,这个单调关系是一个统计意义上的,或者说一种趋势上的,而非严格的单调。如下如所示。左图和中图都呈现一种近似单调的关系,而右图则不是,因为右图的左半部分和右半部分的趋势是相反的。

add1504f21614b449b75e2ba8b1d6243.png

4. 计算公式及代码示例

        肯德尔系数有两个计算公式,一个称为Tau-c,另一个称为Tau-b。两者的区别是Tau-b可以处理有相同值的情况,即并列排位(tied ranks)。下面分别说明这两个公式。

4.1 Tau-a

        gif.latex?%5Ctau_a%3D%5Cfrac%7Bc-d%7D%7B%5Cfrac%7B1%7D%7B2%7Dn%28n-1%29%7D

        其中,n表示样本个数。如上所述,肯德尔相关系数是基于数据对来进行分析的,n个样本每两两组队所得到的组队数就是gif.latex?%5Cfrac%7B1%7D%7B2%7Dn%28n-1%29,Tau-a的分母即来自于此。分子中c和d则分别代表一致对和分歧对的个数。

        计算例如下所示:

# Example4 -- Kendall correlation coefficientfrom scipy.stats.stats import kendalltaudat1 = np.array([3,5,1,9,7,2,8,4,6])dat2 = np.array([5,3,2,6,8,1,7,9,4])fig,ax = plt.subplots()ax.scatter(dat1,dat2)kendalltau(dat1,dat2)
KendalltauResult(correlation=0.3888888888888889, pvalue=0.18018077601410934)

9c092af7ac104fa19b6631c5acb691b8.png

        当然也可以写一段自己的代码来实现相关系数的计算,这样能够更加确切地知道到底是如何计算的,代码示例如下:

c = 0d = 0for i in range(len(dat1)):    for j in range(i+1,len(dat1)):        if (dat1[i]-dat1[j])*(dat2[i]-dat2[j])>0:            c = c + 1        else:            d = d + 1k_tau = (c - d) * 2 / len(dat1)/(len(dat1)-1)            print('k_tau = {0}'.format(k_tau))    

         运行以上代码同样可以得到0.3888...的结果,只不过没有给出p-value分析结果(这个稍微麻烦一些,此处暂且略过)。

 

4.2  Tau-b       

        在以上Tau-a的计算中假定原始数据中不存在并列排位。当原始数据中存在并列排位时,则用以下公式能够给出更准确的分析结果。

                        gif.latex?%5Ctau_b%20%3D%20%5Cfrac%7Bc-d%7D%7B%5Csqrt%7B%28c+d+t_x%29%28c+d+t_y%29%7D%7D

        其中c和d则分别代表一致对和分歧对的个数,gif.latex?t_xgif.latex?t_y则分别表示数据X中的并列排位个数,和数据Y中的并列排位个数。注意,如果是同时发生在X和Y中并列排位,则既不计入gif.latex?t_x,也不计入gif.latex?t_y。 

# Tau_bfrom scipy.stats.stats import kendalltaudat1 = np.array([3,5,1,6,7,2,8,8,4])dat2 = np.array([5,3,2,6,8,1,7,8,4])#dat1 = np.array([3,5,1,9,7,2,8,4,6])#dat2 = np.array([5,3,2,6,8,1,7,9,4])c = 0d = 0t_x = 0t_y = 0for i in range(len(dat1)):    for j in range(i+1,len(dat1)):        if (dat1[i]-dat1[j])*(dat2[i]-dat2[j])>0:            c = c + 1        elif (dat1[i]-dat1[j])*(dat2[i]-dat2[j])<0:            d = d + 1        else:            if (dat1[i]-dat1[j])==0 and (dat2[i]-dat2[j])!=0:                t_x = t_x + 1            elif (dat1[i]-dat1[j])!=0 and (dat2[i]-dat2[j])==0:                t_y = t_y + 1                tau_b = (c - d) / np.sqrt((c+d+t_x)*(c+d+t_y))            print('tau_b = {0}'.format(tau_b))            print('kendalltau(dat1,dat2) =  {0}'.format(kendalltau(dat1,dat2)))
tau_b = 0.6857142857142857kendalltau(dat1,dat2) =  KendalltauResult(correlation=0.6857142857142857, pvalue=0.011424737055271894)

        注意,这个数据用上面的tao_a的计算方式会得到不同的结果,有兴趣的小伙伴可以自行验证。

 

Kendall Rank Correlation Explained. | by Joseph Magiya | Towards Data Science

scipy.stats.kendalltau — SciPy v1.9.1 Manual

 

来源地址:https://blog.csdn.net/chenxy_bwave/article/details/126919019

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯