文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

python入门——Pandas透视表(pivot_table)

2023-09-28 15:21

关注

透视表是一种可以对数据动态排布并且分类汇总的表格格式。pivot_table是pandas中数据透视表的函数。

官方文档关于pivot_table函数体的介绍:

pandas.pivot_table — pandas 1.5.1 documentation

pivot_table的官方定义如下所示:

pandas.pivot_table(datavalues=Noneindex=Nonecolumns=Noneaggfunc='mean'fill_value=Nonemargins=Falsedropna=Truemargins_name='All'observed=Falsesort=True)

看一下参数主要的作用:

data:DataFrame

values:被计算的数据项,设定需要被聚合操作的列(需要显示的列)

index:每个pivot_table必须拥有一个index,必选参数,设定数据的行索引,可以设置多层索引,多次索引时按照需求确定索引顺序。

columns:必选参数,设定列索引,用来显示字符型数据,和fill_value搭配使用。

Aggfunc:聚合函数, pivot_table后新dataframe的值都会通过aggfunc进行运算。默认numpy.mean求平均。

fill_values:填充NA值(设定缺省值)。默认不填充,可以指定。

margins:添加行列的总计,默认FALSE不显示。TRUE显示。

dropna:如果整行都为NA值,则进行丢弃,默认TRUE丢弃。FALSE时,被保留。

margins_name:margins = True 时,设定margins 行/列的名称。'all' 默认值

接下来用泰塔尼克号数据做一个简单的实践。

数据来自:Titanic - Machine Learning from Disaster | Kaggle

首先导入numpy和pandas库

import numpy as npimport pandas as pd

其次读取文件

data = pd.read_csv(r"D:\A USTC\CSDN\kaggle\Titanic - Machine Learning from Disaster\train.csv") 

可以通过data直接看一下读取的文件

接着实践一下各个参数的作用。

#index:按Pclass进行索引,aggfunc默认按平均值聚合,values默认只显示可以按平均值聚合的列data.pivot_table(index = 'Pclass')  

 可以看到聚合之后的结果:对于非整型和浮点型等不可以按平均值聚合的数据没有显示

 我们也可以通过dtypes看一下每一列的类型

#index可以进行多层索引,比如先按舱位后按性别索引data.pivot_table(index = ['Pclass','Sex'])  

#index索引注意顺序不同达到目标不同data.pivot_table(index = ['Sex','Pclass'])  

#values:筛选需要显示的列,这里显示Survived列,因此我们可以看到不同等级舱位的平均生存率data.pivot_table(index = 'Pclass',values='Survived')  

#columns:列索引,统计不同等级舱位男性和女性的平均生存率,列索引为Sexdata.pivot_table(index = 'Pclass',columns='Sex',values='Survived') 

#columns可以对字符串数据设定列索引,比如这里的Embarkeddata.pivot_table(index = 'Pclass',columns='Embarked',values='Survived') 

#aggfunc:聚合方式,比如下面把name列按len聚合data.pivot_table(index = 'Pclass',aggfunc={'Name':len})  

#甚至可以把name列按sum聚合查看不同舱位的乘客姓名data.pivot_table(index = 'Pclass',aggfunc={'Name':sum})  

#先看一下不用fill_value不设定缺省值的情况,空值显示的是NANdata.pivot_table(columns='Cabin') 

#fill_value:设定缺省值为0后,NAN替代为0data.pivot_table(columns='Cabin',fill_value=0) 

#margins=True,true会添加行/列的总计,可以看到最后有个all行#默认FALSE。columns对应右侧的总计,index对应底部的总计。data.pivot_table(index = 'Pclass',columns='Sex',margins=True) 

 比较常用的参数介绍完之后,我们看一下两个小的plus。

#plus1:得到不同年龄段的生存概率,未成年和成年age = pd.cut(data['Age'], [0, 18, 80]) data.pivot_table(values='Survived', index=['Sex', age],columns= 'Pclass')#这样就得到了不同性别、年龄组、舱位等级的乘客的生存率

#plus2:不同列采用不同聚合方式data.pivot_table(columns='Sex', index='Pclass',aggfunc={'Survived':sum, 'Fare':'mean'})

来源地址:https://blog.csdn.net/weixin_49249463/article/details/127578300

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯