文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Pandas怎么计算元素的数量和频率

2023-07-05 04:59

关注

本篇内容介绍了“Pandas怎么计算元素的数量和频率”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

在pandas.Series的pandas.DataFrame列中,将描述获取唯一元素数(不包括重复项的案例数)和每个元素的出现频率(出现数)的方法。

使用pandas.Series方法的unique(),value_counts()和nunique()。还提供了nunique()作为pandas.DataFrame的方法。

在这里:

在解释了基本用法之后,对一下内容进行介绍。

以下面的数据为例。

import pandas as pdimport numpy as npdf = pd.read_csv('./data/15/sample_pandas_normal.csv')df.iloc[1] = np.nanprint(df)#       name   age state  point# 0    Alice  24.0    NY   64.0# 1      NaN   NaN   NaN    NaN# 2  Charlie  18.0    CA   70.0# 3     Dave  68.0    TX   70.0# 4    Ellen  24.0    CA   88.0# 5    Frank  30.0    NY   57.0

pandas.Series.unique():返回NumPy数组ndarray中唯一元素值的列表

unique()返回唯一元素值的列表。一维NumPy数组ndarray类型而不是列表类型(Python内置类型)。还包括缺失值NaN。

u = df['state'].unique()print(u)print(type(u))# ['NY' nan 'CA' 'TX']# <class 'numpy.ndarray'>

pandas.Series.value_counts():返回唯一元素的值及其在出现的次数。

value_counts()返回pandas.Series,其中唯一元素的值是index,出现的次数是data。当需要元素的频率(出现次数)时使用此选项。

vc = df['state'].value_counts()print(vc)print(type(vc))# NY    2# CA    2# TX    1# Name: state, dtype: int64# <class 'pandas.core.series.Series'>

默认情况下,它按出现次数的降序排序,但是如果参数ascending = True,则以升序排序,如果参数sort = False,则不进行排序。

print(df['state'].value_counts(ascending=True))# TX    1# CA    2# NY    2# Name: state, dtype: int64print(df['state'].value_counts(sort=False))# CA    2# NY    2# TX    1# Name: state, dtype: int64

默认情况下,NaN被排除,但如果参数dropna = False,则也计入NaN。

print(df['state'].value_counts(dropna=False))# NY     2# CA     2# TX     1# NaN    1# Name: state, dtype: int64

如果指定了参数normalize = True,则将值归一化,以使总数变为1。

请注意,如果包含缺失值NaN,则该值将根据参数dropna的设置而有所不同。

print(df['state'].value_counts(dropna=False, normalize=True))# NY     0.333333# CA     0.333333# TX     0.166667# NaN    0.166667# Name: state, dtype: float64

pandas.Series.nunique(), pandas.DataFrame.nunique():返回int,pandas.Series中唯一元素的数量。

pandas.Series.nunique()以整数int形式返回唯一元素的数量。

默认情况下,不包含NaN,并且如果指定了参数dropna = False,则结果还将包含NaN。

nu = df['state'].nunique()print(nu)print(type(nu))# 3# <class 'int'>print(df['state'].nunique(dropna=False))# 4

pandas.DataFrame.nunique()计算每列的唯一元素数。返回pandas.Series类型。

默认情况下,不包含NaN,并且如果指定了参数dropna = False,则结果还将包含NaN。

默认情况下,该值为每列,但是如果参数axis = 1或axis =&lsquo;columns&rsquo;,则返回每行的值。

nu_col = df.nunique()print(nu_col)print(type(nu_col))# name     5# age      4# state    3# point    4# dtype: int64# <class 'pandas.core.series.Series'>print(df.nunique(dropna=False))# name     6# age      5# state    4# point    5# dtype: int64print(df.nunique(dropna=False, axis='columns'))# 0    4# 1    1# 2    4# 3    4# 4    4# 5    4# dtype: int64

唯一元素的数量(不包括重复项的)

如上所述,pandas.Series.nunique()和pandas.DataFrame.nunique()可以计算唯一元素的数量(唯一元素的数量)。

print(df['state'].nunique())# 3print(df.nunique())# name     5# age      4# state    3# point    4# dtype: int64

唯一元素值列表

使用unique(),您可以获取NumPy数组ndarray类型的唯一元素值的列表。如果要使用列表类型(Python内置类型),则可以使用tolist()方法将其转换。

print(df['state'].unique().tolist())print(type(df['state'].unique().tolist()))# ['NY', nan, 'CA', 'TX']# <class 'list'>

可以将tolist()方法应用于通过value_counts()获得的pandas.Series的索引。也可以作为NumPy数组ndarray类型的值来获取。

print(df['state'].value_counts().index.tolist())print(type(df['state'].value_counts().index.tolist()))# ['NY', 'CA', 'TX']# <class 'list'>print(df['state'].value_counts(dropna=False).index.values)print(type(df['state'].value_counts().index.values))# ['NY' 'CA' 'TX' nan]# <class 'numpy.ndarray'>

如上所述,在unique()的情况下,始终包含NaN,但是value_counts()可以指定参数dropna是否包含NaN。

唯一元素的频率(出现次数)

要获取每个唯一元素的频率(出现次数),请访问通过value_counts()获得的pandas.Series的值。

print(df['state'].value_counts()['NY'])# 2print(df['state'].value_counts().NY)# 2

使用iteritems()方法检索for循环中的元素值和频率(出现次数)。

for index, value in df['state'].value_counts().iteritems():    print(index, ': ', value)# NY :  2# CA :  2# TX :  1

独特元素及其出现的字典

也可以将to_dict()方法应用于value_counts()获得的pandas.Series使其成为字典。

d = df['state'].value_counts().to_dict()print(d)print(type(d))# {'NY': 2, 'CA': 2, 'TX': 1}# <class 'dict'>print(d['NY'])# 2

使用items()方法在for循环中检索元素值和频率(出现次数)。

for key, value in d.items():    print(key, ': ', value)# NY :  2# CA :  2# TX :  1

模式及其频率

默认情况下,value_counts()返回pandas.Series,它以出现次数的降序排列,因此顶部是最频繁出现的值及其频率。

print(df['state'].value_counts())# NY    2# CA    2# TX    1# Name: state, dtype: int64print(df['state'].value_counts().index[0])# NYprint(df['state'].value_counts().iat[0])# 2

原始pandas.Series的元素成为所得pandas.Series的索引。当数值为索引时,无法使用[Number]指定该值(这会导致错误),因此严格使用iat [Number]进行指定。 (由于示例是字符串,因此[Number]无关紧要)

使用apply()方法将其应用于pandas.DataFrame的每一列。

Pandas中map(),applymap(),apply()函数的使用方法

print(df.apply(lambda x: x.value_counts().index[0]))# name     Frank# age         24# state       NY# point       70# dtype: objectprint(df.apply(lambda x: x.value_counts().iat[0]))# name     1# age      2# state    2# point    2# dtype: int64

如果存在多种模式,则上述方法只能获得一种模式。

mode()

pandas.Series的mode()方法将模式值返回为pandas.Series。如果使用tolist()列出此结果,则可以将模式值作为列表获取。请注意,即使只有一种模式,也将是一个列表。

print(df['state'].mode())# 0    CA# 1    NY# dtype: objectprint(df['state'].mode().tolist())# ['CA', 'NY']print(df['age'].mode().tolist())# [24.0]

使用apply()方法将mode()应用于每列将产生具有列表类型元素的pandas.Series()。

s_mode = df.apply(lambda x: x.mode().tolist())print(s_mode)# name     [Alice, Charlie, Dave, Ellen, Frank]# age                                    [24.0]# state                                [CA, NY]# point                                  [70.0]# dtype: objectprint(type(s_mode))# <class 'pandas.core.series.Series'>print(s_mode['name'])# ['Alice', 'Charlie', 'Dave', 'Ellen', 'Frank']print(type(s_mode['name']))# <class 'list'>

mode()也作为pandas.DataFrame的方法提供。返回pandas.DataFrame。由于各列的模式数不同,所以空缺部分成为缺失值NaN。

print(df.mode())#       name   age state  point# 0    Alice  24.0    CA   70.0# 1  Charlie   NaN    NY    NaN# 2     Dave   NaN   NaN    NaN# 3    Ellen   NaN   NaN    NaN# 4    Frank   NaN   NaN    NaN

可以使用count()方法获得每列中的模式数,该方法对不缺少值NaN的元素数进行计数。

print(df.mode().count())# name     5# age      1# state    2# point    1# dtype: int64

describe()

同样,正如我在开始时所写的那样,describe()方法可用于共同计算每一列的唯一元素的数量,模式值及其频率(出现的次数)。每个项目都可以使用loc []获得。

print(df.astype('str').describe())#          name   age state point# count       6     6     6     6# unique      6     5     4     5# top     Frank  24.0    CA  70.0# freq        1     2     2     2print(df.astype('str').describe().loc['top'])# name     Frank# age       24.0# state       CA# point     70.0# Name: top, dtype: object

在describe()中,由列类型dtype计算出的项是不同的,因此使用astype()进行类型转换(转换)。

归一化频率

如上所述,当将value_counts()的参数归一化设置为True时,将归一化以使总数变为1的值被返回。

请注意,如果包含缺失值NaN,则该值将根据参数dropna的设置而有所不同。

比较多个数据的频率分布时,很方便。

print(df['state'].value_counts(dropna=False, normalize=True))# NY     0.333333# CA     0.333333# TX     0.166667# NaN    0.166667# Name: state, dtype: float64

“Pandas怎么计算元素的数量和频率”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯