你还在用Excel处理数据？Python Pandas让你处理数据事半功倍！-编程学习网

简介

Pandas是一个用于数据分析和处理的Python库，它提供了高效的数据结构和数据操作工具，可以处理多种类型的数据，包括时间序列、表格型数据和矩阵数据等。

Pandas的主要数据结构是Series和DataFrame，Series是一维数组，DataFrame是二维表格型数据结构，类似于Excel中的表格。Pandas还提供了一些常用的数据操作函数，包括数据的读取和写入、数据的切片和过滤、数据的合并和聚合等。

本文将深入介绍Pandas库的使用，包括数据的读取和写入、数据的索引和切片、数据的过滤和排序、数据的合并和聚合等常用操作。同时，还将介绍一些不常用但是有用的Pandas函数和技巧。本文将提供完整的代码示例，帮助读者更好地理解和应用Pandas库。

安装

在使用Pandas库之前，需要先安装它。可以使用pip命令进行安装：

pip install pandas

数据的读取和写入

Pandas提供了多种方式读取和写入数据，包括读写CSV文件、Excel文件、SQL数据库等。下面是一些常用的数据读取和写入函数。

读取CSV文件

Pandas提供了read_csv函数用于读取CSV文件，该函数将CSV文件读取为DataFrame格式的数据。

import pandas as pd

df = pd.read_csv('data.csv')
print(df)

read_csv函数的参数列表如下：

filepath_or_buffer：CSV文件路径或URL地址。
sep：CSV文件的分隔符，默认为逗号。
header：指定哪一行作为列名，默认为0，即第一行。
index_col：指定哪一列作为行索引，默认为None，即不使用行索引。
usecols：指定读取哪些列，默认为None，即读取所有列。
dtype：指定每一列的数据类型。
skiprows：指定跳过哪些行。
nrows：指定读取的行数。
na_values：指定缺失值的表示方式。

写入CSV文件

Pandas提供了to_csv函数用于将数据写入CSV文件。

import pandas as pd

df = pd.DataFrame({'name':['Tom', 'Jack', 'Mary'], 'age':[18, 20, 22]})
df.to_csv('data.csv', index=False)

to_csv函数的参数列表如下：

path_or_buf：CSV文件路径或文件对象。
sep：CSV文件的分隔符，默认为逗号。
header：是否写入列名，默认为True。
index：是否写入行索引，默认为True。
mode：写入模式，如"w"表示覆盖写入，"a"表示追加写入。
encoding：编码方式，默认为"utf-8"。
na_rep：缺失值的表示方式。

读取Excel文件

Pandas提供了read_excel函数用于读取Excel文件，该函数将Excel文件读取为DataFrame格式的数据。

import pandas as pd

df = pd.read_excel('data.xlsx')
print(df)

read_excel函数的参数列表如下：

io：Excel文件路径或URL地址。
sheet_name：指定读取哪个Sheet，默认为0，即第一个Sheet。
header：指定哪一行作为列名，默认为0，即第一行。
index_col：指定哪一列作为行索引，默认为None，即不使用行索引。
usecols：指定读取哪些列，默认为None，即读取所有列。
dtype：指定每一列的数据类型。
skiprows：指定跳过哪些行。
nrows：指定读取的行数。
na_values：指定缺失值的表示方式。

写入Excel文件

Pandas提供了to_excel函数用于将数据写入Excel文件。

import pandas as pd

df = pd.DataFrame({'name':['Tom', 'Jack', 'Mary'], 'age':[18, 20, 22]})
df.to_excel('data.xlsx', index=False)

to_excel函数的参数列表如下：

excel_writer：Excel文件路径或文件对象。
sheet_name：指定写入哪个Sheet，默认为Sheet1。
header：是否写入列名，默认为True。
index：是否写入行索引，默认为True。
startrow：从哪一行开始写入，默认为0。
startcol：从哪一列开始写入，默认为0。
na_rep：缺失值的表示方式。

数据的索引和切片

Pandas提供了多种方式对数据进行索引和切片，包括基于位置的索引和切片、基于标签的索引和切片、布尔索引和掩码索引等。

基于位置的索引和切片

Pandas提供了类似于Python列表的索引和切片方式，使用iloc属性实现。

import pandas as pd

df = pd.DataFrame({'name':['Tom', 'Jack', 'Mary'], 'age':[18, 20, 22]})
print(df.iloc[1]) # 索引第二行
print(df.iloc[0:2]) # 切片前两行
print(df.iloc[:, 0]) # 索引第一列
print(df.iloc[:, 0:2]) # 切片前两列
print(df.iloc[1, 1]) # 索引第二行第二列

基于标签的索引和切片

Pandas提供了基于标签的索引和切片方式，使用loc属性实现。

import pandas as pd

df = pd.DataFrame({'name':['Tom', 'Jack', 'Mary'], 'age':[18, 20, 22]})
df.set_index('name', inplace=True) # 将name列设置为行索引
print(df.loc['Jack']) # 索引Jack行
print(df.loc[['Tom', 'Mary']]) # 索引Tom和Mary行
print(df.loc[:, 'age']) # 索引age列
print(df.loc[:, ['age', 'gender']]) # 索引age和gender列
print(df.loc['Jack', 'age']) # 索引Jack行的age列

布尔索引和掩码索引

Pandas提供了布尔索引和掩码索引方式，可以根据指定的条件筛选数据。

import pandas as pd

df = pd.DataFrame({'name':['Tom', 'Jack', 'Mary'], 'age':[18, 20, 22]})
print(df[df['age']>20]) # 筛选年龄大于20的数据
print(df[(df['name']=='Tom') | (df['name']=='Mary')]) # 筛选名字为Tom或Mary的数据

数据的过滤和排序

Pandas提供了多种方式对数据进行过滤和排序，包括条件过滤、数值过滤、文本过滤和排序等。

条件过滤

Pandas提供了query函数和where函数用于条件过滤。

import pandas as pd

df = pd.DataFrame({'name':['Tom', 'Jack', 'Mary'], 'age':[18, 20, 22]})
print(df.query('age > 20')) # 筛选年龄大于20的数据
print(df.where(df['name']=='Tom')) # 筛选名字为Tom的数据

数值过滤

Pandas提供了多种方式对数据进行数值过滤，包括数值比较、数值范围筛选和缺失值处理等。

import pandas as pd
import numpy as np

df = pd.DataFrame({'name':['Tom', 'Jack', 'Mary'], 'age':[18, np.nan, 22]})
print(df[df['age']>20]) # 筛选年龄大于20的数据
print(df[df['age'].between(18, 20)]) # 筛选年龄在18-20之间的数据
print(df.dropna()) # 删除缺失值
print(df.fillna(0)) # 将缺失值填充为0

文本过滤

Pandas提供了str属性用于文本过滤，可以根据指定的条件筛选包含特定字符的数据。

import pandas as pd

df = pd.DataFrame({'name':['Tom', 'Jack', 'Mary'], 'gender':['M', 'F', 'F']})
print(df[df['name'].str.contains('a')]) # 筛选名字中包含a的数据
print(df[df['gender'].isin(['M', 'F'])]) # 筛选性别为M或F的数据

排序

Pandas提供了sort_values函数用于对数据进行排序，可以根据指定的列或行进行排序。

import pandas as pd

df = pd.DataFrame({'name':['Tom', 'Jack', 'Mary'], 'age':[18, 20, 22]})
print(df.sort_values(by='age', ascending=False)) # 按年龄降序排序

sort_values函数的参数列表如下：

by：指定按哪一列排序。
axis：指定按哪一个维度排序，默认为0，即按列排序。
ascending：指定是否升序排列，默认为True。

数据的合并和聚合

Pandas提供了多种方式对数据进行合并和聚合，包括表格拼接、数据合并和数据聚合等。

表格拼接

Pandas提供了concat函数用于对多个表格进行拼接，可以按行或列拼接。

import pandas as pd

df1 = pd.DataFrame({'name':['Tom', 'Jack'], 'age':[18, 20]})
df2 = pd.DataFrame({'name':['Mary'], 'age':[22]})
print(pd.concat([df1, df2])) # 按行拼接
df3 = pd.DataFrame({'gender':['M', 'M', 'F']})
print(pd.concat([df1, df3], axis=1)) # 按列拼接

concat函数的参数列表如下：

objs：需要拼接的表格列表。
axis：指定按哪一个维度拼接，默认为0，即按行拼接。
join：指定拼接方式，默认为"outer"，即保留所有数据。
keys：指定拼接后每个表格的标识符。

数据合并

Pandas提供了merge函数用于对多个数据进行合并，可以按指定的列进行合并。

import pandas as pd

df1 = pd.DataFrame({'name':['Tom', 'Jack'], 'age':[18, 20], 'gender':['M', 'M']})
df2 = pd.DataFrame({'name':['Tom', 'Mary'], 'score':[80, 90]})
print(pd.merge(df1, df2, on='name')) # 按名字合并

merge函数的参数列表如下：

left：左侧数据表。
right：右侧数据表。
on：指定按哪一列进行合并。
how：指定合并方式，如"inner"表示保留两个表格中都有的数据。
suffixes：指定重复列名的后缀。

数据聚合

Pandas提供了groupby函数用于对数据进行聚合操作，可以根据指定的列进行分组。

import pandas as pd

df = pd.DataFrame({'name':['Tom', 'Jack', 'Mary', 'Tom'], 'age':[18, 20, 22, 24]})
print(df.groupby('name').mean()) # 按名字分组并计算平均值

groupby函数的参数列表如下：

by：指定按哪一列进行分组。
axis：指定按哪一个维度分组，默认为0，即按列分组。
as_index：指定是否以分组列作为行索引，默认为True。
aggfunc：指定聚合函数，默认为"mean"，即计算平均值。

其他技巧

除了上述介绍的常用操作和函数外，Pandas还提供了许多不常用但是有用的函数和技巧，下面介绍其中一些。

apply函数

apply函数可以对每一列或每一行应用指定的函数。

import pandas as pd
import numpy as np

df = pd.DataFrame({'name':['Tom', 'Jack', 'Mary'], 'age':[18, 20, 22]})
print(df.apply(lambda x: x.max())) # 每列的最大值
print(df.apply(lambda x: np.mean(x), axis=1)) # 每行的平均值

pivot_table函数

pivot_table函数可以对数据进行透视表操作，可以根据指定的列进行分组和聚合。

import pandas as pd

df = pd.DataFrame({'name':['Tom', 'Jack', 'Mary', 'Tom'], 'age':[18, 20, 22, 24], 'score':[80, 90, 85, 95]})
print(df.pivot_table(values='score', index='name', aggfunc='mean')) # 按名字计算平均分数

cut函数

cut函数可以将数据按指定的区间进行分段。

import pandas as pd

df = pd.DataFrame({'score':[60, 70, 80, 90, 100]})
bins = [0, 60, 70, 80, 90, 100]
labels = ['F', 'D', 'C', 'B', 'A']
df['grade'] = pd.cut(df['score'], bins=bins, labels=labels)
print(df)

qcut函数

qcut函数可以将数据按指定的分位数进行分段。

import pandas as pd

df = pd.DataFrame({'score':[60, 70, 80, 90, 100]})
df['grade'] = pd.qcut(df['score'], q=3, labels=['Low', 'Medium', 'High'])
print(df)

结论

Pandas是Python中非常常用的数据处理工具，可以方便地进行数据的读取、清洗、转换、分析和可视化等操作。本文介绍了Pandas的基本用法和常用函数，以及一些高级技巧，希望能够对读者有所帮助。

文章详情

你还在用Excel处理数据？Python Pandas让你处理数据事半功倍！

简介

安装

数据的读取和写入

读取CSV文件

写入CSV文件

读取Excel文件

写入Excel文件

数据的索引和切片

基于位置的索引和切片

基于标签的索引和切片

布尔索引和掩码索引

数据的过滤和排序

条件过滤

数值过滤

文本过滤

排序

数据的合并和聚合

表格拼接

数据合并

数据聚合

其他技巧

apply函数

pivot_table函数

cut函数

qcut函数

结论

软考中级精品资料免费领

相关文章

猜你喜欢

你还在用Excel处理数据？Python Pandas让你处理数据事半功倍！

让你一文弄懂Pandas文本数据处理

前端开发必备，这些数据处理工具库助你事半功倍！

Python Pandas数据预处理：你知道数据标准化吗？

Python 中利用Pandas处理复杂的Excel数据

说到Python处理大数据集，别说你会用Pandas

数据科学不可或缺的十个Python库，让你事半功倍

Python Pandas 数据处理大师养成计划，助力你成为数据处理高手！

Python 中怎么利用Pandas处理复杂的Excel数据

python pandas处理excel表格数据的常用方法总结

Python Pandas 数据处理大师养成记，开启你的数据探索之旅！

你知道Python中数据处理库Pandas是如何诞生的吗？

教你在Excel中调用Python脚本实现数据自动化处理的方法

处理复杂的数据集成，你还在编写脚本吗？

大数据处理的 Python 库 numpy 和 http，你会用吗？

PHP 在大数据处理中的应用：你了解吗？

Python 开发技术中的 NumPy 函数，让你的数据处理更加高效！

增强代入感：成为 Python Pandas 数据处理大师：开启你的数据探索之旅！

Python 大数据处理，你知道 numpy 和 http 的作用吗？

Python 开发技术中的 NumPy 函数，让你的数据处理更上一层楼！