文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Python实现对相同数据分箱的小技巧分享

2024-04-02 19:55

关注

前言

博主最近工作中刚好用到数据分箱操作(对相同数据进行遍历比较,避免了全部遍历比较,大大减少了电脑IO次数,提高程序运行速度),翻了很多博文都没有找到解决方法,写一下我自己的解决思路!!!

什么是分箱?

简单点说就是将不同的东西,按照特定的条件放到一个指定容器里,比如水果 把绿色的放一个篮子里,红色一个篮子等等,这个篮子就是箱,而水果就是数据 颜色就是条件

什么样式的数据要进行分箱

数据主要分为连续变量和分类变量,分箱的操作主要针对于连续变量。

为什么要对数据进行分箱操作

稳定性,时间复杂度,看的舒服,提高准确度 等等

思路

先给定 last 为列表第一个(并存入temp列表),将后面的数据从第二个开始与 last 比较,如果相同存入 temp 中。

当不相同时,则将 last 切换为 不同的那个数(并存入temp),并将 temp列表 放入一个空列表中。

类型一:数字

实现效果

[1,1,1,2,2,2,3,3,4,4,5,5,5,5,5]

# 转变为
[[1, 1, 1], [2, 2, 2], [3, 3], [4, 4], [5, 5, 5, 5, 5]]

代码实现

box = [1,1,1,2,2,2,3,3,4,4,5,5,5,5,5]

last = box[0]
temp = [box[0]]
box_list = [temp]

for a in box[1::]:
    if a == last:
        temp.append(a)
    else:
        last = a
        temp = [a]
        box_list.append(temp)

print(box_list) # [[1, 1, 1], [2, 2, 2], [3, 3], [4, 4], [5, 5, 5, 5, 5]]

# 实现按每一个分箱列表遍历数据(而不用全部遍历)
for boxs in box_list:
    for i in boxs:
        print(i)

类型二:元组

实现效果

box = [('小黑','20','四川'),('小黑','21','北京'),('张三','18','上海'),('张三','22','上海'),('张三','30','北京'),('李四','10','广州')]

# 实现把名字相同的元组放入一个列表
[[('小黑', '20', '四川'), ('小黑', '21', '北京')], [('张三', '18', '上海'), ('张三', '22', '上海'), ('张三', '30', '北京')], [('李四', '10', '广州')]]

代码实现

box = [('小黑','20','四川'),('小黑','21','北京'),('张三','18','上海'),('张三','22','上海'),('张三','30','北京'),('李四','10','广州')]


last = box[0][0]
temp = [box[0]]
box_list = [temp]

for a in box[1::]:
    if a[0] == last:
        temp.append(a)
    else:
        last = a[0]
        temp = [a]
        box_list.append(temp)
       
print(box_list)    

# 实现按每一个分箱列表遍历数据(而不用全部遍历)
for boxs in box_list:
    for i in boxs:
        print(i[0]) # 0取的姓名,1取年龄,3取地址

附:利用Python的cut方法可以对数据进行分箱。

import pandas as pd 
import numpy as np 
from pandas import Series,DataFrame

# 随机生成一组数据
score_list = np.random.randint(25,100,size = 20)  # 随机生成最小值25,最大值100的20个数据

# 分箱的区间
bins = [0,59,70,80,100]

# 分箱
score_cat = pd.cut(score_list,bins)

# 统计不同区间的个数
pd.value_counts(score_cat)


# 生成一个空的DataFrame
df = DataFrame()
df['Score'] = score_list
df['Name'] =  [pd.util.testing.rands(5) for i in range(20)] # 生成20个姓名
df['Categories'] =pd.cut(df['Score'],bins,labels = ['不及格','一般','优秀','厉害']) 
# labels对应的是bins的

总结

到此这篇关于Python实现对相同数据分箱的文章就介绍到这了,更多相关Python相同数据分箱内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯