文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Python怎么利用Pandas与NumPy进行数据清洗

2023-06-30 02:00

关注

本文小编为大家详细介绍“Python怎么利用Pandas与NumPy进行数据清洗”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python怎么利用Pandas与NumPy进行数据清洗”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。

许多数据科学家认为获取和清理数据的初始步骤占工作的 80%,花费大量时间来清理数据集并将它们归结为可以使用的形式。

因此如果你是刚刚踏入这个领域或计划踏入这个领域,重要的是能够处理杂乱的数据,无论数据是否包含缺失值、不一致的格式、格式错误的记录还是无意义的异常值。

将利用 Python 的 Pandas和 NumPy 库来清理数据。

准备工作

导入模块后就开始正式的数据预处理吧。

import pandas as pdimport numpy as np

DataFrame 列的删除

通常会发现并非数据集中的所有数据类别都有用。例如可能有一个包含学生信息(姓名、年级、标准、父母姓名和地址)的数据集,但希望专注于分析学生成绩。在这种情况下地址或父母的姓名并不重要。保留这些不需要的数据将占用不必要的空间。

BL-Flickr-Images-Book.csv 数据操作。

df = pd.read_csv('数据科学必备Pandas、NumPy进行数据清洗/BL-Flickr-Images-Book.csv')df.head()

Python怎么利用Pandas与NumPy进行数据清洗

可以看到这些列是对 Edition Statement, Corporate Author, Corporate Contributors, Former owner, Engraver, Issuance type and Shelfmarks 没有任何信息帮助的,因此可以进行批量删除处理。

to_drop_column = [ 'Edition Statement',                   'Corporate Author',                   'Corporate Contributors',                   'Former owner',                   'Engraver',                   'Contributors',                   'Issuance type',                   'Shelfmarks']df.drop(to_drop_column , inplace=True, axis=1)df.head()

Python怎么利用Pandas与NumPy进行数据清洗

DataFrame 索引更改

Pandas 索引扩展了 NumPy 数组的功能,以允许更通用的切片和标记。 在许多情况下,使用数据的唯一值标识字段作为其索引是有帮助的。

获取唯一标识符。

df['Identifier'].is_uniqueTrue

Identifier列替换索引列。

df = df.set_index('Identifier')df.head()

Python怎么利用Pandas与NumPy进行数据清洗

206 是索引的第一个标签,可以使用 df.iloc[0] 基于位置的索引访问。

DataFrame 数据字段整理

清理特定列并将它们转换为统一格式,以更好地理解数据集并强制保持一致性。

处理 Date of Publication 出版日期 列,发现该数据列格式并不统一。

df.loc[1905:, 'Date of Publication'].head(10)

Identifier1905           18881929    1839, 38-542836           18972854           18652956        1860-632957           18733017           18663131           18994598           18144884           1820Name: Date of Publication, dtype: object

我们可以使用正则表达式的方式直接提取连续的4个数字即可。

extr = df['Date of Publication'].str.extract(r'^(\d{4})', expand=False)extr.head()Identifier206    1879216    1868218    1869472    1851480    1857Name: Date of Publication, dtype: object

最后获取数字字段列。

df['Date of Publication'] = pd.to_numeric(extr)

str 方法与 NumPy 结合清理列

df[‘Date of Publication’].str 。 此属性是一种在 Pandas 中访问快速字符串操作的方法,这些操作在很大程度上模仿了对原生 Python 字符串或编译的正则表达式的操作,例如 .split()、.replace() 和 .capitalize()。

要清理 Place of Publication 字段,我们可以将 Pandas 的 str 方法与 NumPy 的 np.where 函数结合起来,该函数基本上是 Excel 的 IF() 宏的矢量化形式。

np.where(condition, then, else)

在这里 condition 要么是一个类似数组的对象,要么是一个布尔掩码。 then 是如果条件评估为 True 时使用的值,否则是要使用的值。

本质上 .where() 获取用于条件的对象中的每个元素,检查该特定元素在条件上下文中的计算结果是否为 True,并返回一个包含 then 或 else 的 ndarray,具体取决于哪个适用。可以嵌套在复合 if-then 语句中,允许根据多个条件计算值.

处理 Place of Publication 出版地 数据。

df['Place of Publication'].head(10)Identifier206                                  London216                London; Virtue & Yorston218                                  London472                                  London480                                  London481                                  London519                                  London667     pp. 40. G. Bryan & Co: Oxford, 1898874                                 London]1143                                 LondonName: Place of Publication, dtype: object

使用包含的方式提取需要的数据信息。

pub = df['Place of Publication']london = pub.str.contains('London')london[:5]Identifier206    True216    True218    True472    True480    TrueName: Place of Publication, dtype: bool

也可以使用 np.where 处理。

df['Place of Publication'] = np.where(london, 'London',                                      pub.str.replace('-', ' ')))Identifier206                     London216                     London218                     London472                     London480                     London                  ...         4158088                 London4158128                  Derby4159563                 London4159587    Newcastle upon Tyne4160339                 LondonName: Place of Publication, Length: 8287, dtype: object

apply 函数清理整个数据集

在某些情况下,将自定义函数应用于 DataFrame 的每个单元格或元素。 Pandas.apply() 方法类似于内置的 map() 函数,只是将函数应用于 DataFrame 中的所有元素。

例如将数据的发布日期进行处理成 xxxx 年的格式,就可以使用apply。

def clean_date(text):    try:        return str(int(text)) + "年"    except:        return textdf["new_date"] = df["Date of Publication"].apply(clean_date)df["new_date"] Identifier206        1879年216        1868年218        1869年472        1851年480        1857年           ...  4158088    1838年4158128    1831年4159563      NaN4159587    1834年4160339    1834年Name: new_date, Length: 8287, dtype: object

DataFrame 跳过行

olympics_df = pd.read_csv('数据科学必备Pandas、NumPy进行数据清洗/olympics.csv')olympics_df.head()

Python怎么利用Pandas与NumPy进行数据清洗

可以在读取数据时候添加参数跳过某些不要的行,比如索引 0 行。

olympics_df = pd.read_csv('数据科学必备Pandas、NumPy进行数据清洗/olympics.csv',header=1)olympics_df.head()

Python怎么利用Pandas与NumPy进行数据清洗

DataFrame 重命名列

new_names =  {'Unnamed: 0': 'Country',              '? Summer': 'Summer Olympics',               '01 !': 'Gold',              '02 !': 'Silver',              '03 !': 'Bronze',              '? Winter': 'Winter Olympics',              '01 !.1': 'Gold.1',              '02 !.1': 'Silver.1',              '03 !.1': 'Bronze.1',              '? Games': '# Games',              '01 !.2': 'Gold.2',              '02 !.2': 'Silver.2',              '03 !.2': 'Bronze.2'}olympics_df.rename(columns=new_names, inplace=True)olympics_df.head()

Python怎么利用Pandas与NumPy进行数据清洗

读到这里,这篇“Python怎么利用Pandas与NumPy进行数据清洗”文章已经介绍完毕,想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会,如果想了解更多相关内容的文章,欢迎关注编程网行业资讯频道。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯