文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Python RawString与open文件的newline换行符遇坑解决

2024-04-02 19:55

关注

背景

一次工作中,我需要完成某个文件的字符串替换。

需求是这样的:文件A有个占位符,需要利用Python3,把占位符替换成文件B的内容。文件都不大,可以一次性读到内存处理。

我想,这不是简单的open read replace write就搞定了嘛?

结果,还真有点麻烦!

思路

with open('A', encoding='utf8') as f:
  template = f.read()
with open('B', encoding='utf8') as f:
  text = f.read()
result = re.sub(r'占位标识符', text, template, 1)
with open('A', 'w', encoding='utf8') as f:
  f.write(result)

遇到的问题

文件B内有换行符,也有字符串\n,按上文的方式处理后,所有的字符串\n都变成了换行符!

举个例子,template是我是:{}(其中{}就是占位符),text是下面的文本:

哈哈
哈哈\n哈哈

替换后,如下图所示:

可以看到,当我打印re.sub结果时,所有的\n都变成了换行符,字符串\n消失了!

这的确令人烦躁,本来五分钟可以搞定,结果要花多余的时间处理这个问题。如果你学会了本文,以后都不用再去费脑筋了~

思考过程

一开始遇到这个问题,是在写入文件后发现的,所以并没定位的这么准确,当时跟换行符相关的,我怀疑了以下方面:

如果我们能把这3个问题全都弄清楚,以后定位就非常快了!

Raw String

Python中,如果字符串常量的定义前加了个r,就表示 Raw String 原始字符串。

Raw String 特点在于,字符串常量里的\将不具有转义作用,它仅仅代表它自己。

例如,你定义个普通字符串"\n",这个字符串长度其实是1,它只包含了1个换行符,对应的 ASCII 是10。

如果你定义了原始字符串"\n",这个字符串长度就是2,它包含了字符\和字符n

如果字符串没转义字符,那么 Raw String 跟普通 String 完全一致

转义字符有这些:

也就是说r'\haha''\haha'是完全一致的,因为\h不是转义字符,所以这种情况下,没必要加r

误区:注意单个字符的引号问题

有一个令人疑惑的点:理论上讲,r'\'应该就是'\\',但是当你使用r'\'时,Python会报错。

这是因为Python在编译时,读取字符串时,如果字符串以单引号开头,遇到\'后,不论你是不是Raw String,都会继续认为是字符串,不会把'当作结束符。估计是一个历史遗留问题。我们只能接受现实。

如何证明呢?你给字符后面加个空格,发现它们是相等的:r'\ ''\\ '。但是单独的字符r'\'就报错了。

但是这种情况只有r'\'r"\"才会发生,如果字符串长度为2,是没问题的,例如r"\\"可以被合法定义。

启发

定义字符串时,如果你是这么定义:"哈哈\n哈哈",那么这个字符串长度是5,包含了1个换行符。

如果你是这么定义:r"哈哈\n哈哈",那么这个字符串长度是6,不包含换行符,包含字符\n

同样,当你写入文件时,如果是f.write('\n'),就表明写入了换行符,但如果是f.write(r'\n'),就表明写入了字符串"\n"

正则替换的问题

这是导致本文问题的根本原因。使用re.sub时,所有的字符串r"\n"都被当作了换行符。

怎么办呢?

只要我们替换前,把原始文件对应的字符串的r"\n"都改为r"\\n",手动多加了一次转义符,那么re.sub时,就不会把r"\n"当作一个整体改成换行符了,反而会把r"\\"当作一个整体,替换为字符\。这样r"\n"字符串就保留下来了!当然,其它转义字符,也统统保留下来了。这就是正确的解法了。

open 文件的 newline 参数

with open(filename, 'r', newline=None) as f:
  f.read()

这个主要是因为不同操作系统的换行符不同,所以有了这个参数。Windows 是 CRLF 即 \r\n,Unix 是 LF 即\n,旧版 Macintosh 是 CR 即\r

通常情况下,我们不需要加这个参数,Python 会自动为我们做这些事情:

当然,你也可以主动设置 newline 参数:

注意,newline 参数只对文本文件有效,如果是二进制读写,newline 是无用的。

其实,大部分时候我们无需关注这个 newline 参数。

以上就是Python RawString与open文件的newline换行符遇坑解决的详细内容,更多关于Python RawString open文件 newline换行符的资料请关注编程网其它相关文章!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯