文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Pandas:用于数据分析和数据科学的最热门 Python 库

2024-12-13 15:20

关注

Pandas 为 Python 中数据分析提供了基础和高级的构建组件。Pandas 库是用于数据分析与数据操作的最强大和最灵活的开源分析工具之一,并且它还提供了用于建模和操作表格数据(以行和列组织的数据)的数据结构

Pandas 库有两个主要的数据结构:第一个是 “系列Series”,该数据结构能够很方便地从 Python 数组或字典中按位置或指定的索引名称来检索数据;第二个是“数据帧DataFrames”,该数据结构将数据存储在行和列中。列可以通过列名访问,行通过索引访问。列可以有不同类型的数据,包括列表、字典、序列、数据帧、NumPy 数组等。

Pandas 库可以处理各种文件格式

有各种各样的文件格式。用于数据分析的工具必须能够提供处理各种文件格式的方法。

Pandas 可以读取各种文件格式,例如 CSV 文件、JSON 文件、XML 文件、Parquet 文件、SQL 文件,详见下表。

 

写入

读取

CSV 文件

​to_csv​​ 函数

​read_csv​​ 函数

JSON 文件

​to_json​​ 函数

​read_json​​ 函数

Parquet 文件

​to_parquet​​ 函数

​read_parquet​​ 函数

SQL 文件

​to_sql​​ 函数

​read_sql​​​ 函数,​​read_sql_query​​​ 函数,​​read_sql_table​​ 函数

XML 文件

​to_xml​​ 函数

​read_xml​​ 函数

使用 Pandas 进行数据清理

在现实场景中,很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况,如果要对使数据分析更加准确,就需要对这些没有用的数据进行处理。此外,数据还会有需要 屏蔽mask

Pandas 清洗空值:

a. 空行可以使用 ​​df.dropna(inplace=True)​​ 方法来删除。

b. 空值可以使用 ​​df.fillna(, inplace=True)​​ 方法来替换。还可以指定某一个列来替换该列的空数据。

Pandas 屏蔽数据:

c. 要屏蔽所有不满足条件 ​​my_list.where(my_list < 5)​​ 的敏感数据的值,可以使用 ​​my_list.mask(my_list < 5)​​。

Pandas 清洗重复数据:

d. 要删除重复数据,可以使用 ​​drop_duplicates()​​ 方法:

df.drop_duplicates(<column>, keep = False)df.drop_duplicates(<column>, keep = ‘first’)df.drop_duplicates(<column>, keep = ‘last’)

使用 Pandas 进行数据分析

下面的表格列出了 Pandas 中进行数据分析的各种函数,以及其语法。(请注意:​​df​​ 代表一个 数据帧DataFrame

< 如显示不全,请左右滑动 >

语法

描述

​df.head(x)​

​head()​​ 函数用于读取前面的 x 行,如果不填参数 x,默认返回 5 行

​df.tail(x)​

​tail()​​ 函数用于读取尾部的 x 行,如果不填参数 x ,默认返回最后 5 行,空行各个字段的值返回 NaN

​loc(x:y)​

Loc 函数返回指定行的数据,也可以对数据进行切片

​groupby('')​

对指定列的数据进行分组

​df['column'].sum()​

计算指定列数据的总和

​df['column']. mean()​

计算指定列数据的算术平均值

​df['column'].min()​

计算指定列数据的最小值

​df['column'].max()​

计算指定列数据的最大值

​df.sort_values(['column'])​

在指定列上根据数值进行排序,默认升序

​df.size​

返回元素的个数,即为行数 * 列数

​df.describe​

返回对各列的统计汇总

​pd.crosstab(df['column1'], df['column2'], margins = True)​

创建 ​​column1​​​ 和 ​​column2​​ 的交叉表

​df.duplicated([column1, 'column2'])​

根据 ​​column1​​​ 和 ​​column2​​​ 中的重复值,返回 ​​True​​​ 或 ​​False​

Pandas 的优点

Pandas 的不足

Pandas 的代码和语法与 Python 不同,所以人们需要额外再学习 Pandas。此外,相较于 Pandas,像三维数据这样的高维数据会在 NumPy 等其他库有更好的处理。

总结

Pandas 能够大幅提升数据分析的效率。它与其他库的兼容性使它在其他 Python 库中都能有效地使用。

来源:Linux中国内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯