Python Pandas 是一个强大的 Python 库,专门用于数据处理和分析。它提供了丰富的功能,即使对于数据处理小白,也能轻松上手,快速提升数据处理能力。
基础操作
1. 创建 DataFrame
DataFrame 是 Pandas 中用于存储和操作数据的主要数据结构。您可以使用列表、字典或现有数组创建 DataFrame。
import pandas as pd
# 从列表创建 DataFrame
df = pd.DataFrame({
"Name": ["Alice", "Bob", "Charlie"],
"Age": [25, 30, 35],
})
# 从字典创建 DataFrame
df = pd.DataFrame(
{
"Name": {"Alice": 25, "Bob": 30, "Charlie": 35}
}
)
2. 访问数据
您可以使用列索引访问 DataFrame 中的列。此外,使用 loc
和 iloc
方法可以根据索引或位置访问行或组。
# 使用列索引访问一列
ages = df["Age"]
# 使用 loc 访问一行或一组行
row1 = df.loc[0] # 获取第 1 行
# 使用 iloc 访问一行或一组行
row2 = df.iloc[1] # 获取第 2 行
3. 数据处理
Pandas 提供了广泛的数据处理功能,包括:
- 过滤:使用
query
或isin
过滤满足特定条件的 DataFrame 行。 - 排序:使用
sort_values
根据特定列对 DataFrame 进行排序。 - 聚合:使用
groupby
和聚合函数(如sum
和mean
)对 DataFrame 进行分组并聚合数据。
高级操作
1. 数据连接
Pandas 可以通过 merge
方法合并来自不同 DataFrame 的数据,支持各种连接类型,例如内部连接、左连接和右连接。
# 连接两个 DataFrame
df1 = pd.DataFrame({"ID": [1, 2, 3], "Name": ["Alice", "Bob", "Charlie"]})
df2 = pd.DataFrame({"ID": [1, 3, 4], "Age": [25, 35, 40]})
df_merged = pd.merge(df1, df2, on="ID")
2. 数据清理
Pandas 提供了 dropna
和 fillna
等函数来清理缺失值,还可以使用正则表达式进行字符串清理。
# 删除具有缺失值的 DataFrame 行
df_cleaned = df.dropna()
# 使用正则表达式清理字符串
df_cleaned["Name"] = df_cleaned["Name"].str.lower().str.replace(" ", "_")
3. 数据可视化
Pandas 可以轻松创建各种数据可视化,例如直方图、折线图和散点图。
# 绘制直方图
df["Age"].hist()
# 绘制折线图
df.plot(x="Name", y="Age")
# 绘制散点图
df.plot.scatter(x="Age", y="Name")
结论
Python Pandas 是一个功能强大的数据处理库,即使对于数据处理小白,也能轻松掌握其基础和高级功能。通过利用 Pandas 的丰富功能,您可以高效地处理和分析数据,提高数据处理效率,提升数据洞察力。