在pythonlist中筛选包含字符的字段方式-编程学习网

python list筛选包含字符的字段

l = [‘123a',‘456b',‘789c']

ll = [s for s in l if ‘a' in s]

这是通过判断语句

lst = [“123a”, “456b”, “789c”]
lst = list(filter(lambda x: x.find(“a”) >= 0, lst))
print(lst)

这是通过函数

Python 列表筛选数据

在做数据处理中，常会遇到列表筛选

比如有以下两个列表

根据上列表中的KEY1 , 筛选下列表的数据，也就是标黄的数据。数量不大的情况，一般就是遍历比较，逻辑简单，几行代码搞掂。

但如果列表达到万，或者百万、千万，那遍历效率就低了。

先构造测试的列表

# 构造筛选目标列表,确保KEY不重复
n1 = 30000
n1_set = set([random.randint(1,n1)  for n in range(n1)])
n1 = len(n1_set)
list1 = [['1108{:0>6d}27'.format(n), "".join(random.sample('ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz',10))] for n in n1_set]
 
# 构造待筛选数据列表,确保KEY不重复
n2 = 100000
n2_set = set([random.randint(1,n2)  for n in range(n2)])
n2= len(n2_set)
list2 = [['1108{:0>6d}27'.format(n), "".join(random.sample('ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz',5)),n ] for n in n2_set]

比较遍历、列表生成式+filter 、pandas 的 merge 三种方法效率

筛选目标18971条, 待处理数据63275条
遍历生成数据 耗时11.591秒 获得数据量 12024
['11080000427', 'eArVD', 4]
filter 耗时11.5秒 获得数据量 12024
['11080000427', 'eArVD', 4]
merge 耗时0.058秒 获得数据量 12024
['11080000427', 'eArVD', 4]

筛选目标189733条, 待处理数据632363条
遍历生成数据 耗时1597.4296秒 获得数据量 120180
['1108000000227', 'NkoEQ', 2]
filter 耗时1575.0432秒 获得数据量 120180
['1108000000227', 'NkoEQ', 2]
merge 耗时0.64秒 获得数据量 120180
['1108000000227', 'NkoEQ', 2]

经过比较，直接遍历生成和列表生成式+filter的效率基本一致， pandas 的merge 效率最高。适合大批量数据处理。

上代码

print("筛选目标{}条, 待处理数据{}条".format(n1,n2))
 
# 直接遍历生成数据，计时
t1 = time.time()
list_temp = [n[0] for n in list1]
list3 = []
for n in list2:
    if n[0] in list_temp:
        list3.append(n)
t2 = time.time()
print("遍历生成数据 耗时{}秒".format(round(t2 - t1, 4)), "获得数据量", len(list3))
print(list3[0]) 
 
 
# 用filter筛选数据，计时
t1 = time.time()
list_temp = [n[0] for n in list1]
list3 = [n for n in filter(lambda x: x[0] in list_temp, list2)]
t2 = time.time()
print("filter 耗时{}秒".format(round(t2 - t1,4)), "获得数据量", len(list3))
print(list3[0])
 
 
# 用pd.merge 筛选数据，计时
t1 = time.time()
df1 = pd.DataFrame(list1, columns=['k1','m1'])
df2 = pd.DataFrame(list2, columns=['k1','m2','n2'])
df3 = pd.merge(df1[['k1']], df2, how='inner', on='k1')
t2 = time.time()
print("merge 耗时{}秒".format(round(t2 - t1,4)), "获得数据量", len(df3))
print(list(df3.iloc[0]))

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。

文章详情

在pythonlist中筛选包含字符的字段方式

目录

python list筛选包含字符的字段

Python 列表筛选数据

比如有以下两个列表

先构造测试的列表

比较遍历、列表生成式+filter 、pandas 的 merge 三种方法效率

软考中级精品资料免费领

相关文章

猜你喜欢

在pythonlist中筛选包含字符的字段方式

mysql使用字符串字段判断是否包含某个字符串的方法

gRPC 方法可以返回包含字符串或 null 字段的消息吗？

PHP如何返回在字符串中包含的特定字符的数目

Python如何返回在字符串中包含的特定字符的数目

Java如何返回在字符串中包含的特定字符的数目

vue项目中字符串换行显示方式(返回的数据包含‘\r\n’字符)

java中判断字符串是否包含中文汉字或字符的方法有哪些

java中判断一个字符串是否包含某个字符的方法

JQuery ID选择器中的不能包含特殊字符的处理方法

Go语言如何返回在字符串中包含的特定字符的数目

C语言如何返回在字符串中包含的特定字符的数目

Oracle字符串中包含数字、特殊符号的解决方法是什么

javascript判断字符串中是否包含某个字符串的方法有哪些

如何在 Java 中运用 indexOf 来检查字符串的包含关系？(如何在Java中使用indexOf检查字符串包含关系)

mysql中的实现字段或字符串拼接的三种方式

java中判断字符串中是否包含某个特定字符串的方法有哪些

SQL判断某字符串是否在指定字段中的方法

mysql判断查询条件是否包含某字符串的7种方式

怎么在Linux中使用awk命令提取包含某个关键字的段落

文章详情

在pythonlist中筛选包含字符的字段方式

目录

python list筛选包含字符的字段

Python 列表筛选数据

比如有以下两个列表

先构造测试的列表

比较遍历、列表生成式+filter 、pandas 的 merge 三种方法效率

软考中级精品资料免费领

相关文章

猜你喜欢

在pythonlist中筛选包含字符的字段方式

mysql使用字符串字段判断是否包含某个字符串的方法

gRPC 方法可以返回包含字符串或 null 字段的消息吗？

PHP如何返回在字符串中包含的特定字符的数目

Python如何返回在字符串中包含的特定字符的数目

Java如何返回在字符串中包含的特定字符的数目

vue项目中字符串换行显示方式(返回的数据包含‘\r\n’字符)

java中判断字符串是否包含中文汉字或字符的方法有哪些

java中判断一个字符串是否包含某个字符的方法

JQuery ID选择器中的不能包含特殊字符的处理方法

Go语言如何返回在字符串中包含的特定字符的数目

C语言如何返回在字符串中包含的特定字符的数目

Oracle字符串中包含数字、特殊符号的解决方法是什么

javascript判断字符串中是否包含某个字符串的方法有哪些

如何在 Java 中运用 indexOf 来检查字符串的包含关系？(如何在Java中使用indexOf检查字符串包含关系)

mysql中的实现字段或字符串拼接的三种方式

java中判断字符串中是否包含某个特定字符串的方法有哪些

SQL判断某字符串是否在指定字段中的方法

mysql判断查询条件是否包含某字符串的7种方式

怎么在Linux中使用awk命令 提取包含某个关键字的段落

怎么在Linux中使用awk命令提取包含某个关键字的段落