短信预约-IT技能免费直播动态提醒

短信预约提醒成功

深入解析pandas数据聚合和重组

2023-05-16 20:53

关注

目录

1GroupBy技术

1.1简介
1.3选取一个或一组列
1.4通过字典或Series进行分组
1.5利用函数进行分组

2数据聚合

2.1简介
2.1面向列的多函数应用
2.2以‘无索引’的方式返回聚合数据

介绍pandas数据聚合和重组的相关知识，仅供参考。

1GroupBy技术

1.1简介

简介：根据一个或多个键进行分组，每一组应用函数，再进行合并

分组的键有多种形式：

列表或数组，长度与待分组的轴一样
表示DataFrame某个列名的值
字典或Series，给出待分组轴上的值与分组名之间的对应关系
函数，用于处理轴索引或索引中的各个标签

实例：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pandas import Series,DataFrame
df =DataFrame({'key1':list('aabba'),'key2':['one','two','one','two','one'],\
 'data1':np.random.randn(5),'data2':np.random.randn(5)}) 
#根据key1进行分组，并计算data1的均值。 
#注意下面的方式，取出来进行分组，而不是在DataFrame中分组，这种方式很灵活 
#可以看到这是一个GroupBy对象,具备了应用函数的基础 
#这个过程是将Series进行聚合，产生了新的Series 
grouped = df['data1'].groupby(df['key1']) 
print(grouped,'\n')

注：

取出来进行分组，而不是在DataFrame中分组分组键中的缺失值被排除在外 1.2对分组进行迭代

GroupBy对象支持迭代，可以产生一组二元元组（由分组名和数据块组成）

groupby默认在axis=0上进行分组，但可以设置在任何轴上分组

1.3选取一个或一组列

对于由DataFrame产生的GroupBy对象，如果用一个或一组列名进行索引，可实现选取部分列进行聚合的目的，即下面语法效果相同。

1.4通过字典或Series进行分组

假设已经知道列的分组方式，现在需要利用这个信息进行分组统计。

下面为groupby传入一个已知信息的字典：

相当于将每一个列重设名，再按新的名字进行求和。

Series也有这样的功能，被看作一个固定大小的映射，可以用Series作为分组键，pandas会自动检查对齐。

1.5利用函数进行分组

将函数、数组、字典、Series混用也ok，因为最终都会转换为数组

2数据聚合

2.1简介

简介：

这里的数据聚合是说任何能够从数组产生标量值的过程常见的聚合运算都有就地计算数据集统计信息的优化实现。当然不止这些，可以用自己定义的运算，还可以调用分组对象上已经定义好的任何方法。

例：quantile可计算Series或DataFrame列的样本分位数。

对于自己定义的聚合函数，只需将其传入aggregate或agg即可：

有些方法（describe）也可应用

自定义函数比经过优化的函数要慢得多，这是因为在构造中间分组数据块时存在非常大的开销（函数调用、数据重排等）

可使用的函数：

2.1面向列的多函数应用

有时候需要对不同的列应用不同的函数，或者对一列应用不同的函数

若传入一组函数或函数名，得到的DataFrame列就会以相应的函数命名

上面有个问题就是列名是自动给出的，以函数名为列名，若传入元组（name,function）组成的列表，就会自动将第一个元素作为列名

对两列都应用functions：

得到的结果的列名是层次化索引，可以直接用外层索引选取数据：

如果想对不同的列应用不同的函数，具体的办法是向agg传入一个从列映射到函数的字典：

2.2以‘无索引’的方式返回聚合数据

到目前为止，示例中的聚合数据都是由唯一的分组键组成的索引（可能还是层次化的）

由于并不是总需要如此，可以向groupby传入as_index = False禁用该功能

到此这篇关于pandas数据聚合和重组的文章就介绍到这了,更多相关pandas数据聚合内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

阅读原文内容投诉

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

历年真题答案解析
备考技巧名师总结
高频考点精准押题

资料下载
历年真题

2024上半年软考中级软件测评师考试基础知识真题
193.9 KB下载数265
2024上半年软考中级软件设计师考试基础知识真题
191.63 KB下载数245
2023下半年-系统集成项目管理工程师-真题考点汇总（完整版）
143.91 KB下载数1148
2023年下半年系统集成项目管理工程师第一、二、三批次真题考点整理(考友回忆版)
183.71 KB下载数642
2023年上半年软考中级《系统集成项目管理工程师》-基础知识-考试真题及答案
644.84 KB下载数2756

2024年上半年信息系统项目管理师第二批次真题及答案解析（完整版）
难度 813人已做
查看
【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析
难度 354人已做
查看
【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析
难度 318人已做
查看
2024年上半年软考高项第一、二批次真题考点汇总（完整版）
难度 435人已做
查看
2024年上半年系统架构设计师考试综合知识真题
难度 224人已做
查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机

深入解析pandas数据聚合和重组

后端开发2023-05-16

Pandas数据分析多文件批次聚合处理实例解析

后端开发2023-02-15

Python数据分析之 Pandas Dataframe合并和去重操作

后端开发2024-04-02

Python数据分析之Pandas Dataframe怎么合并和去重

后端开发2023-06-30

JavaScript数组深入解析：掌握有序数据集合的奥秘

<strong>JavaScript数组深入解析：掌握有序数据集合的奥秘</strong>

后端开发2024-02-02

优化数据处理的方法，深入解析numpy数组拼接

优化数据处理的方法，深入解析numpy数组拼接

后端开发2024-01-26

【数据分析入门】人工智能、数据分析和深度学习是什么关系？如何快速入门 Python Pandas？

后端开发2023-08-31

【100天精通Python】Day57：Python 数据分析_Pandas数据描述性统计，分组聚合，数据透视表和相关性分析

后端开发2023-09-10

100天精通Python（数据分析篇）——第67天：Pandas数据连接、合并、加入、添加、重构函数（merge、concat、join、append、stack、unstack）

后端开发2023-09-02

深入理解Java和Linux中的数组重定向，让您的代码更高效

后端开发2023-10-23

深入剖析数据库事务：了解其特性和注意事项

深入剖析数据库事务：了解其特性和注意事项

后端开发2024-02-25

Python数据结构全方位解析：从元组到字典，深入探索Python中的数据类型

Python数据结构全方位解析：从元组到字典，深入探索Python中的数据类型

后端开发2024-01-20

深入解析Java中的Shell脚本：数组和文件操作技巧大揭秘！

深入解析Java中的Shell脚本：数组和文件操作技巧大揭秘！

后端开发2023-10-31

深入理解分布式之数据库和缓存双写一致性方案解析

后端开发2024-04-02

PHP表单传值和文件上传：深入解析数据交互与文件处理技术

后端开发2023-09-02

位置：首页-资讯-后端开发

咦！没有更多了？去看看其它编程学习网内容吧