- 使用 pip 安装:
pip install pandas
- 验证安装:
import pandas as pd
2. 数据结构
- DataFrame:二维数据结构,行表示索引,列表示列名
- Series:一维数据结构,表示一列数据
- Index:数据行的唯一标识符
- Columns:数据列的名称
3. 数据导入/导出
- read_csv():从 CSV 文件读取数据
- read_excel():从 Excel 文件读取数据
- to_csv():导出数据到 CSV 文件
- to_excel():导出数据到 Excel 文件
4. 数据清洗和预处理
- fillna():填充缺失值
- dropna():删除包含缺失值的列或行
- astype():强制转换数据类型
- unique():获取唯一值
- groupby():根据一个或多个列对数据进行分组
5. 数据分析
- describe():获取数据统计信息(平均值、中位数、标准差)
- corr():计算列之间的相关系数
- agg():聚合分组数据(求和、求平均值、求最大值)
- plot():可视化数据
6. 数据转换
- merge():合并两个 DataFrame
- join():根据公用键连接两个 DataFrame
- concat():连接多个 DataFrame
- rename():重命名列或索引
7. 高级技巧
- lambdas:用于创建匿名函数
- apply():逐行或逐列应用函数
- query():使用布尔表达式筛选数据
- resample():对时间序列数据进行重新采样
8. 练习与项目
- Kaggle:参加数据科学竞赛和获得真实世界经验
- 个人项目:构建自己的数据分析管道
- 在线课程:Coursera、edX 等平台提供高级 Pandas 课程
9. 资源
- Pandas 官方文档:https://pandas.pydata.org/docs/index.html
- 社区论坛:https://stackoverflow.com/questions/tagged/pandas
- 书籍:
- 《Python 数据分析手册》
- 《Pandas Cookbook》