文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Pandas字符串操作的各种方法速度测试

2024-11-30 09:38

关注

我们用Faker创建了一个100,000行的测试数据。

测试方法

安装:

!pip install faker

生成测试数据的方法很简答:

import pandas as pd
 import numpy as np
 
 def gen_data(x):
  from faker import Faker
  fake = Faker()
  outdata = {}
  for i in range(0,x):
    outdata[i] = fake.profile()
  return pd.DataFrame(outdata).T
 
 n= 100000
 basedata = gen_data(n)

然后把Google Colab将输出存储在Google drive中

from google.colab import drive
 drive.mount('/content/drive')

创建了非常简单的函数来测试连接两个字符串的各种方法。

def process(a,b):
  return ''.join([a,b])
 
 def process(a,b):
  return a+b
 
 def process(a,b):
  return f"{a}{b}"
 
 def process(a,b):
  return f"{a}{b}"*100

创建一个空DF,编写一个函数将输出%%timeit作为一行添加到数据框中

# add a row to the dataframe using %%timeit output
 def add_to_df(n, m, x, outputdf):
  outputdf.loc[len(outputdf.index)] = [m, n, x]
 
 # output frame
 outputdf = pd.DataFrame(columns=['method', 'n', 'timing'])
 outputdf

然后就是运行上面的每个函数并将数据导出到pandas的代码。

# get a sample of data
 n = 10000
 suffix = 'fstring_100x'
 data = basedata.copy().sample(n).reset_index()

记录运行时间

%%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 for row in range(len(data)):
  data.at[row ,'newcol'] = process(data.at[row, 'job'], data.at[row, 'company'])
 
 # 451 ms ± 34 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
 # 

完整的函数调用

m = "Iterating over the rows"
 add_to_df(n = n, m = m, x = vars(_), outputdf = outputdf)

试验

上面是代码,下面开始用上面的代码进行试验:

Iterrows (pandas原生函数)每行相加

%%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 for row, item in data.iterrows():
  data.at[row ,'newcol'] = process(item['job'], item['company'])

Itertuples(由于不可变而更安全)每行相加

%%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 for row, job, company in data[['job','company']].itertuples():
  data.at[row ,'newcol'] = process(job, company)

使用pandas原生函数作为字符串相加

%%timeit -r 7 -n 1 -o
 data['newcol'] = data.job + data.company

使用原生函数pandas. series .add

%%timeit -r 7 -n 1 -o
 data['newcol'] = data.job.add(data.company)

使用dataframe.apply

%%timeit -r 7 -n 1 -o
 data['newcol'] = data.apply(lambda row: process(row['job'],row['company']), axis=1)

使用List Map

%%timeit -r 7 -n 1 -o
 data['newcol'] = list(map(process, data.job, data.company))

Pandas矢量化

%%timeit -r 7 -n 1 -o
 data['newcol'] = process(data.job, data.company)

numpy数组矢量化

%%timeit -r 7 -n 1 -o
 data['newcol'] = process(data.job.to_numpy(), data.company.to_numpy())

显式在numpy数组上使用numpy向量化

%%timeit -r 7 -n 1 -o
 data['newcol'] = np.vectorize(process)(data.job.to_numpy(), data.company.to_numpy())

优化后的列表推导式

%%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 data['newcol'] =[process(i,j) for i,j in list(zip(data.job, data.company)) ]

最后是结果的输出:

outputdf.to_csv(f"./drive/MyDrive/{n}_{suffix}.csv")

结果

结果如下所示。我用了上面3种不同函数测试了结果。

原生的字符串加法C = a+b

从1000行扩展到100,000行所需的时间;

可视化对比:

所有矢量化方法都非常快,而且pandas标准的str.add对numpy数组也进行了矢量化。能够看到Pandas的原生方法一般都是线性的。List-map似乎以N的平方根的速度增长

使用fstring: c = f " {a}{b} "

使用fstring,结果很有趣,有的结果无法解释。

时间

可视化

从时间上看,长度超过10,000的DF时,向量化是正确执行的

下图是第三个函数,就是*100,这更能说明问题,向量化操作的基本上时间没有变化

总结

通过上面的测试,我们可以总结一下结果:

1、还是老生常谈的问题,不要使用iterrows(), itertuples(),尽量不要使用DataFrame.apply(),因为几个函数还是循环遍历的。

2、矢量化操作在字符串操作中也是可以使用的,但是为了安全起见,使用Numpy数组。

3、列表推导式就像它的名字一样,它还是一个list

4、还有一些奇怪的无法解释的问题,但是大部分的情况都是可以解释的


来源:DeepHub IMBA内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯