Python 数据分析教程探索性数据分析-编程学习网

什么是探索性数据分析（EDA）？

EDA 是数据分析下的一种现象，用于更好地理解数据方面，例如：
– 数据的主要特征
– 变量和它们之间的关系
– 确定哪些变量对我们的问题很重要
我们将研究各种探索性数据分析方法，

例如：

描述性统计，这是一种简要概述我们正在处理的数据集的方法，包括样本的一些度量和特征
分组数据 [使用group by 进行基本分组]
ANOVA，方差分析，这是一种计算方法，可将观察集中的变化划分为不同的分量。
相关和相关方法

我们将使用的数据集是子投票数据集，您可以在 python 中将其导入为：

import pandas as pd
Df = pd.read_csv("https://vincentarelbundock.github.io / Rdatasets / csv / car / Child.csv")

描述性统计

描述性统计是了解数据特征和快速总结数据的有用方法。python 中的 Pandas 提供了一个有趣的方法describe() 。describe 函数对数据集应用基本统计计算，如极值、数据点计数标准差等。任何缺失值或 NaN 值都会被自动跳过。describe() 函数很好地描绘了数据的分布情况。

DF.describe()

这是您在运行上述代码时将获得的输出：

另一种有用的方法是 value_counts()，它可以获取分类属性值系列中每个类别的计数。例如，假设您正在处理一个客户数据集，这些客户在列名 age 下分为青年、中年和老年类别，并且您的数据框是“DF”。您可以运行此语句以了解有多少人属于各个类别。在我们的数据集示例中可以使用教育列

DF["education"].value_counts()

上述代码的输出将是：

另一个有用的工具是 boxplot，您可以通过 matplotlib 模块使用它。箱线图是数据分布的图形表示，显示极值、中位数和四分位数。我们可以使用箱线图轻松找出异常值。现在再次考虑我们一直在处理的数据集，让我们在属性总体上绘制一个箱线图

import pandas as pd
import matplotlib.pyplot as plt
DF = pd.read_csv("https://raw.githubusercontent.com / fivethirtyeight / data / master / airline-safety / airline-safety.csv")
y = list(DF.population)
plt.boxplot(y)
plt.show()

发现异常值后，输出图将如下所示：

分组数据

Group by 是 pandas 中可用的一个有趣的度量，它可以帮助我们找出不同分类属性对其他数据变量的影响。让我们看一个在同一数据集上的示例，我们想找出人们的年龄和教育对投票数据集的影响。

DF.groupby(['education', 'vote']).mean()

输出会有点像这样：

如果按输出表进行分组难以理解，则进一步的分析师使用数据透视表和热图对其进行可视化。

方差分析

ANOVA 代表方差分析。执行它是为了找出不同类别数据组之间的关系。
在 ANOVA 下，我们有两个测量结果：
– F-testscore：显示组均值相对于变化的变化
– p 值：显示结果的重要性
这可以使用 python 模块 scipy 方法名称f_oneway()

这些样本是每组的样本测量值。
作为结论，如果 ANOVA 检验给我们一个大的 F 检验值和一个小的 p 值，我们可以说其他变量和分类变量之间存在很强的相关性。

文章详情

Python 数据分析教程探索性数据分析

目录

什么是探索性数据分析（EDA）？

描述性统计

分组数据

方差分析

相关性和相关性计算

软考中级精品资料免费领

相关文章

猜你喜欢

Python 数据分析教程探索性数据分析

Python数据分析：数据探索和预测

Python Sweetviz轻松实现探索性数据分析

Python中Sweetviz如何实现探索性数据分析

Pandas 探索性数据分析综合实战

使用PandasGUI进行探索性数据分析

Python中常用探索性数据分析方法有哪些

使用决策树进行探索性数据分析

Python 更快进行探索性数据分析的四个方法

大数据分析的理解和探索

Python进行数据分析（详细教程）

Python 数据分析的权威指南：深入探索

Python 数据分析的实验室：实验和探索

时间序列预测中的探索性数据分析

数据分析-python

对于非结构化数据，EDA探索性数据分析该怎么做？

探索性数据分析（EDA）之数据可视化案例：附数据集和源码

Python 第三方库 Pandas 数据分析教程

六个探索性数据分析(EDA)工具，太实用了！

Python教程pandas数据分析去重复值