Python进行数据相关性分析的三种方式是什么-编程学习网

本文小编为大家详细介绍“Python进行数据相关性分析的三种方式是什么”，内容详细，步骤清晰，细节处理妥当，希望这篇“Python进行数据相关性分析的三种方式是什么”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。

相关性实现

统计和数据科学通常关注数据集的两个或多个变量（或特征）之间的关系。数据集中的每个数据点都是一个观察值，特征是这些观察值的属性或属性。

这里主要介绍下面3种相关性的计算方式：

Pearson’s r
Spearman’s rho
Kendall’s tau

NumPy 相关性计算

np.corrcoef() 返回 Pearson 相关系数矩阵。

import numpy as npx = np.arange(10, 20)xarray([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])yarray([ 2,  1,  4,  5,  8, 12, 18, 25, 96, 48])r = np.corrcoef(x, y)rarray([[1.        , 0.75864029],       [0.75864029, 1.        ]])

Python进行数据相关性分析的三种方式是什么

SciPy 相关性计算

import numpy as npimport scipy.statsx = np.arange(10, 20)y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])scipy.stats.pearsonr(x, y)    # Pearson's r(0.7586402890911869, 0.010964341301680832)scipy.stats.spearmanr(x, y)   # Spearman's rhoSpearmanrResult(correlation=0.9757575757575757, pvalue=1.4675461874042197e-06)scipy.stats.kendalltau(x, y)  # Kendall's tauKendalltauResult(correlation=0.911111111111111, pvalue=2.9761904761904762e-05)

在检验假设时，您可以在统计方法中使用p 值。p 值是一项重要的衡量标准，需要深入了解概率和统计数据才能进行解释。

scipy.stats.pearsonr(x, y)[0]    # Pearson's r0.7586402890911869scipy.stats.spearmanr(x, y)[0]   # Spearman's rho0.9757575757575757scipy.stats.kendalltau(x, y)[0]  # Kendall's tau0.911111111111111

Pandas 相关性计算

相对于来说计算比较简单。

import pandas as pdx = pd.Series(range(10, 20))y = pd.Series([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])x.corr(y)                     # Pearson's r0.7586402890911867y.corr(x)0.7586402890911869x.corr(y, method='spearman')  # Spearman's rho0.9757575757575757x.corr(y, method='kendall')   # Kendall's tau0.911111111111111

线性相关实现

线性相关性测量变量或数据集特征之间的数学关系与线性函数的接近程度。如果两个特征之间的关系更接近某个线性函数，那么它们的线性相关性更强，相关系数的绝对值也更高。

线性回归：SciPy 实现

线性回归是寻找尽可能接近特征之间实际关系的线性函数的过程。换句话说，您确定最能描述特征之间关联的线性函数，这种线性函数也称为回归线。

import pandas as pdx = pd.Series(range(10, 20))y = pd.Series([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])

使用scipy.stats.linregress()对两个长度相同的数组执行线性回归。

result = scipy.stats.linregress(x, y)scipy.stats.linregress(xy)LinregressResult(slope=7.4363636363636365, intercept=-85.92727272727274, rvalue=0.7586402890911869, pvalue=0.010964341301680825, stderr=2.257878767543913)result.slope # 回归线的斜率7.4363636363636365result.intercept # 回归线的截距-85.92727272727274result.rvalue # 相关系数0.7586402890911869result.pvalue #  p值0.010964341301680825result.stderr # 估计梯度的标准误差2.257878767543913

未来更多内容参考机器学习专栏中的线性回归内容。

等级相关

比较与两个变量或数据集特征相关的数据的排名或排序。如果排序相似则相关性强、正且高。但是如果顺序接近反转，则相关性为强、负和低。换句话说等级相关性仅与值的顺序有关，而不与数据集中的特定值有关。

Python进行数据相关性分析的三种方式是什么

图1和图2显示了较大的 x 值始终对应于较大的 y 值的观察结果，这是完美的正等级相关。图3说明了相反的情况即完美的负等级相关。

排名：SciPy 实现

使用 scipy.stats.rankdata() 来确定数组中每个值的排名。

import numpy as npimport scipy.statsx = np.arange(10, 20)y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])z = np.array([5, 3, 2, 1, 0, -2, -8, -11, -15, -16])# 获取排名序scipy.stats.rankdata(x)  # 单调递增array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])scipy.stats.rankdata(y)array([ 2.,  1.,  3.,  4.,  5.,  6.,  7.,  8., 10.,  9.])scipy.stats.rankdata(z) # 单调递减array([10.,  9.,  8.,  7.,  6.,  5.,  4.,  3.,  2.,  1.])

rankdata() 将nan值视为极大。

scipy.stats.rankdata([8, np.nan, 0, 2])array([3., 4., 1., 2.])

等级相关性：NumPy 和 SciPy 实现

使用 scipy.stats.spearmanr() 计算 Spearman 相关系数。

result = scipy.stats.spearmanr(x, y)resultSpearmanrResult(correlation=0.9757575757575757, pvalue=1.4675461874042197e-06)result.correlation0.9757575757575757result.pvalue1.4675461874042197e-06rho, p = scipy.stats.spearmanr(x, y)rho0.9757575757575757p1.4675461874042197e-06

等级相关性：Pandas 实现

使用 Pandas 计算 Spearman 和 Kendall 相关系数。

import numpy as npimport scipy.statsx = np.arange(10, 20)y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])z = np.array([5, 3, 2, 1, 0, -2, -8, -11, -15, -16])x, y, z = pd.Series(x), pd.Series(y), pd.Series(z)xy = pd.DataFrame({'x-values': x, 'y-values': y})xyz = pd.DataFrame({'x-values': x, 'y-values': y, 'z-values': z})

计算 Spearman 的 rho，method=spearman。

x.corr(y, method='spearman')0.9757575757575757xy.corr(method='spearman')          x-values  y-valuesx-values  1.000000  0.975758y-values  0.975758  1.000000xyz.corr(method='spearman')          x-values  y-values  z-valuesx-values  1.000000  0.975758 -1.000000y-values  0.975758  1.000000 -0.975758z-values -1.000000 -0.975758  1.000000xy.corrwith(z, method='spearman')x-values   -1.000000y-values   -0.975758dtype: float64

计算 Kendall 的 tau， method=kendall。

x.corr(y, method='kendall')0.911111111111111xy.corr(method='kendall')          x-values  y-valuesx-values  1.000000  0.911111y-values  0.911111  1.000000xyz.corr(method='kendall')          x-values  y-values  z-valuesx-values  1.000000  0.911111 -1.000000y-values  0.911111  1.000000 -0.911111z-values -1.000000 -0.911111  1.000000xy.corrwith(z, method='kendall')x-values   -1.000000y-values   -0.911111dtype: float64

文章详情

Python进行数据相关性分析的三种方式是什么

相关性实现

NumPy 相关性计算

SciPy 相关性计算

Pandas 相关性计算

线性相关实现

线性回归：SciPy 实现

等级相关

排名：SciPy 实现

等级相关性：NumPy 和 SciPy 实现

等级相关性：Pandas 实现

相关性的可视化

带有回归线的 XY 图

相关矩阵的热图 matplotlib

相关矩阵的热图 seaborn

软考中级精品资料免费领

相关文章

猜你喜欢

Python进行数据相关性分析的三种方式是什么

详解Python进行数据相关性分析的三种方式

用Python对数据进行相关性分析

如何用Python对数据进行相关性分析

Python数据分析Numpy中常用相关性函数是什么

MySQL中有三种删除数据的方式分别是什么

Spring配置数据源的三种方式是什么

进入Win7安全模式的三种方法分别是什么

python分析数据的方法是什么

Python数据分析的方法是什么

Python 更快进行探索性数据分析的四个方法

FMDB使用的数据库的三种形式分别是什么

使用javascript解析二维码的三种方式分别是什么

Python的三大开源数据分析工具是什么

什么是Python中的Dask，它如何帮助你进行数据分析？

Python爬虫解析网页的4种方式分别是什么

Python数据分析需要解答的三大问题是什么

HTTP协议中需要知道的三种数据格式分别是什么

python天气数据爬取与分析的方法是什么

数据库缓存最终一致性的四种方案分别是什么