文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

数据预处理的10个小技能,附Pandas实现

2024-12-03 15:18

关注

[[357540]]

找出异常值常用两种方法:

技能1 :标准差法

  1. import pandas as pd 
  2.  
  3. df = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]}) 
  4.  
  5. # 异常值平均值上下1.96个标准差区间以外的值 
  6. meangrade = df['a'].mean() 
  7. stdgrade = df['a'].std() 
  8. toprange = meangrade + stdgrade * 1.96 
  9. botrange = meangrade - stdgrade * 1.96 
  10.  
  11. # 过滤区间外的值 
  12. copydf = df 
  13. copydfcopydf = copydf.drop(copydf[copydf['a'] 
  14.         > toprange].index) 
  15. copydfcopydf = copydf.drop(copydf[copydf['a'] 
  16.         < botrange].index) 
  17. copydf 

技能2:分位数法

  1. q1 = df['a'].quantile(.25) 
  2. q3 = df['a'].quantile(.75) 
  3. iqr = q3-q1 
  4. toprange = q3 + iqr * 1.5 
  5. botrange = q1 - iqr * 1.5 
  6.  
  7. copydf = df 
  8. copydfcopydf = copydf.drop(copydf[copydf['a'] 
  9.         > toprange].index) 
  10. copydfcopydf = copydf.drop(copydf[copydf['a'] 
  11.         < botrange].index) 
  12. copydf 

技能3:处理空值

np.nan 是 pandas 中常见空值,使用 dropna 过滤空值,axis 0 表示按照行,1 表示按列,how 默认为 any ,意思是只要有一个 nan 就过滤某行或某列,all 所有都为 nan

  1. # axis 0 表示按照行,all 此行所有值都为 nan 
  2. df.dropna(axis=0how='all'

技能4:充填空值

空值一般使用某个统计值填充,如平均数、众数、中位数等,使用函数 fillna:

  1. # 使用a列平均数填充列的空值,inplace true表示就地填充 
  2. df["a"].fillna(df["a"].mean(), inplace=True

技能5:修复不合适值

假如某门课最高分100,如果出现 -2, 120 这样的值,显然不合理,使用布尔类型的Series对象修改数值:

  1. df.loc[(df['a'] < -2,'a')] = 0 
  2. df.loc[(df['a'] >= 100,'a')] = 100 

技能6:过滤重复值

过滤某列重复值,使用 drop_duplicated 方法,第一个参数为列名,keep关键字等于last:最后一次出现此值行:

  1. df.drop_duplicates(['Names'], keep='last'

技能7:apply 元素级:去掉特殊字符

某列单元格含有特殊字符,如标点符号,使用元素级操作方法 apply 干掉它们:

  1. import string 
  2. exclude = set(string.punctuation) 
  3.  
  4. def remove_punctuation(x): 
  5.     x = ''.join(ch for ch in x if ch not in exclude) 
  6.     return x 
  7. # 原df 
  8. Out[26]:  
  9.       a       b 
  10. 0   c,d  edc.rc 
  11. 1     3       3 
  12. 2  d ef       4 
  13.  
  14. # 过滤a列标点 
  15. In [27]: dfdf.a = df.a.apply(remove_punctuation)  
  16. In [28]: df                 
  17. Out[28]:  
  18.       a       b 
  19. 0    cd  edc.rc 
  20. 1     3       3 
  21. 2  d ef       4 

技能8:cut 数据分箱

将百分制分数转为A,B,C,D四个等级,bins 被分为 [0,60,75,90,100],labels 等于['D', 'C', 'B', 'A']:

  1. # 生成20个[0,100]的随机整数 
  2. In [30]: a = np.random.randint(1,100,20)                    
  3. In [31]: a                                     
  4. Out[31]:  
  5. array([48, 22, 46, 84, 13, 52, 36, 35, 27, 99, 31, 37, 15, 31,  5, 46, 98,99, 60, 43]) 
  6.  
  7. # cut分箱 
  8. In [33]: pd.cut(a, [0,60,75,90,100], labels = ['D', 'C', 'B', 'A'])              
  9. Out[33]:  
  10. [D, D, D, B, D, ..., D, A, A, D, D] 
  11. Length: 20 
  12. Categories (4, object): [D < C < B < A

技能9:rank 排名

rank 方法,生成数值排名,ascending 为False,分值越大,排名越靠前:

  1. In [36]: df = pd.DataFrame({'a':[46, 98,99, 60, 43]} ))  
  2. In [53]: df['a'].rank(ascending=False)                    
  3. Out[53]:  
  4. 0    4.0 
  5. 1    2.0 
  6. 2    1.0 
  7. 3    3.0 
  8. 4    5.0 

技能10:category列转数值

某列取值只可能为有限个枚举值,往往需要转为数值,使用get_dummies,或自己定义函数:

  1. pd.get_dummies(df['a']) 

自定义函数,结合 apply:

  1. def c2n(x): 
  2.     if x=='A': 
  3.         return 95 
  4.     if x=='B': 
  5.         return 80 
  6.  
  7. df['a'].apply(c2n) 

以上结合数据预处理的十个小任务,分别找到对应pandas中的实现。

 

来源:Python与算法社区内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯