文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

一行 Python 代码实现数据清洗的18种方法

2024-11-28 14:46

关注

1. 去除字符串两边空格

data = "   Hello World!   "
cleaned_data = data.strip()  # 神奇的一行,左右空格拜拜

解读:strip()方法去掉字符串首尾的空白字符,简单高效。

2. 转换数据类型

num_str = "123"
num_int = int(num_str)  # 字符串转整数,就是这么直接

注意:转换时要确保数据格式正确,否则会报错。

3. 大小写转换

text = "Python is Awesome"
lower_text = text.lower()  # 全部变小写,便于统一处理
upper_text = text.upper()  # 或者全部大写,随你心情

4. 移除列表中的重复元素

my_list = [1, 2, 2, 3, 4, 4]
unique_list = list(set(my_list))  # 集合特性,去重无压力

小贴士:这招虽好,但改变了原列表顺序哦。

5. 快速统计元素出现次数

from collections import Counter
data = ['apple', 'banana', 'apple', 'orange']
counts = dict(Counter(data))  # 想要知道谁最受欢迎?

解读:Counter是统计神器,轻松获取频率。

6. 字符串分割成列表

sentence = "Hello world"
words = sentence.split(" ")  # 分割符默认为空格,一句话变单词列表

7. 列表合并

list1 = [1, 2, 3]
list2 = [4, 5, 6]
merged_list = list1 + list2  # 合并列表,就这么简单

8. 数据填充

my_list = [1, 2]
filled_list = my_list * 3  # 重复三次,快速填充列表

9. 提取日期时间

from datetime import datetime
date_str = "2023-04-01"
date_obj = datetime.strptime(date_str, "%Y-%m-%d")  # 日期字符串变对象

关键点:%Y-%m-%d是日期格式,按需调整。

10. 字符串替换

old_string = "Python is fun."
new_string = old_string.replace("fun", "awesome")  # 改头换面,一言既出old_string = "Python is fun."
new_string = old_string.replace("fun", "awesome")  # 改头换面,一言既出

11. 快速排序

numbers = [5, 2, 9, 1, 5]
sorted_numbers = sorted(numbers)  # 自然排序,升序默认

进阶:reverse=True可降序排列。

12. 提取数字

mixed_str = "The year is 2023"
nums = ''.join(filter(str.isdigit, mixed_str))  # 只留下数字,其余走开

解密:filter函数配合isdigit,只保留数字字符。

13. 空值处理(假设是列表)

data_list = [None, 1, 2, None, 3]
filtered_list = [x for x in data_list if x is not None]  # 拒绝空值,干净利落

语法糖:列表推导式,简洁优雅。

14. 字典键值对互换

my_dict = {"key1": "value1", "key2": "value2"}
swapped_dict = {v: k for k, v in my_dict.items()}  # 翻转乾坤,键变值,值变键

15. 平均值计算

numbers = [10, 20, 30, 40]
average = sum(numbers) / len(numbers)  # 平均数,一步到位

16. 字符串分组

s = "abcdef"
grouped = [s[i:i+2] for i in range(0, len(s), 2)]  # 每两个一组,分割有道

应用:适用于任何需要分组的场景。

17. 数据标准化

import numpy as np
data = np.array([1, 2, 3])
normalized_data = (data - data.mean()) / data.std()  # 数学之美,标准分布

背景:数据分析必备,让数据符合标准正态分布。

18. 数据过滤(基于条件)

data = [1, 2, 3, 4, 5]
even_numbers = [x for x in data if x % 2 == 0]  # 只留偶数,排除异己

技巧:列表推导结合条件判断,高效筛选。

进阶实践与技巧

既然你已经掌握了基础的十八种方法,接下来让我们深入一些,探讨如何将这些技巧结合起来,解决更复杂的数据清洗问题,并分享一些实战中的小技巧。

1. 复杂字符串处理:正则表达式

正则表达式是数据清洗中不可或缺的工具,虽然严格来说可能超过一行,但它能高效地处理模式匹配和替换。

import re
text = "Email: example@email.com Phone: 123-456-7890"
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', text)
phones = re.findall(r'\b\d{3}-\d{3}-\d{4}\b', text)

这段代码分别提取了文本中的电子邮件和电话号码,展示了正则表达式的强大。

2. Pandas库的魔法

对于数据分析和清洗,Pandas是不二之选。虽然Pandas的命令通常不止一行,但其高效性和简洁性值得学习。

import pandas as pd
df = pd.read_csv('data.csv')
# 删除含有缺失值的行
df_clean = df.dropna()
# 替换特定值
df['column_name'] = df['column_name'].replace('old_value', 'new_value')

注意:Pandas虽然强大,但对于初学者可能需要更多时间来熟悉。

3. 错误处理和日志记录

在处理大量数据时,错误几乎是不可避免的。学会用try-except结构捕获异常,并使用logging记录日志,可以大大提升调试效率。

import logging
logging.basicConfig(level=logging.INFO)
try:
    result = some_function_that_might_fail()
    logging.info(f"成功执行!结果:{result}")
except Exception as e:
    logging.error(f"执行失败:{e}")

这样,即使出现问题,也能迅速定位。

4. 批量操作与函数封装

将常用的数据清洗步骤封装成函数,可以大大提高代码的复用性和可读性。

def clean_phone(phone):
    """移除电话号码中的非数字字符"""
    return ''.join(c for c in phone if c.isdigit())

phone_numbers = ['123-456-7890', '(555) 555-5555']
cleaned_numbers = [clean_phone(phone) for phone in phone_numbers]

通过定义clean_phone函数,我们可以轻松地清理一批电话号码。

实战建议:

来源:手把手PythonAI编程内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯