文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Python正则表达式的基本原理是什么

2023-07-06 00:01

关注

这篇文章主要讲解了“Python正则表达式的基本原理是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python正则表达式的基本原理是什么”吧!

正则表达式是什么?

正则表达式,又称规则表达式,(英语:Regular Expression,在代码中常简写为 regex、regexp 或 RE),它是计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式的文本。 许多程序设计语言都支持利用正则表达式进行字符串操作。例如在 Perl 中内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由 Unix 中的工具软件普及开的。正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符"))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。

1.实例引入

说了一大堆废话,大家可能还是云里雾里的,我们通过实例来说明一下,我们可以用正则表达式测试工具,或者python都可以,首先,我们输入一段文本。

hello,my name is Tina,my phone number is 123456 and my web is http://tina.com.

                               [a-zA-z]+://[^\s]*

我们就可以获取网页链接,也就是文本中的url,是不是很神奇?

这是因为它有自己的匹配规则,部分如下。

模式描述
.任意字符
*0个或者多个表达式
+一个或者多个表达式

  关于更多的匹配规则可自行查阅。

?,*,+,\d,\w 都是等价字符

?等价于匹配长度{0,1}

*等价于匹配长度{0,}

+等价于匹配长度{1,}

\d 等价于[0-9]

\D 等价于[^0-9]

\w 等价于[A-Za-z_0-9]

\W 等价于[^A-Za-z_0-9]

2.match()

        这里介绍一个常用的匹配方法——match(),向他传入要匹配的字符串以及正则表达式,就可以检测这个正则表达式是否匹配字符串。

匹配目标

res = re.match('hello\s(\d+)sword')

贪婪匹配

res = re.match('hello.*(\d+)sword')

3.findall()

我们最常用的就是这个,我们看看这个是如何使用的。

import re useData = str(input('请输入字符串数据:')) '''匹配字符串中的数字,+是匹配前面的子表达式一次或多次'''digital = re.findall('\d+',useData) print(digital)

我们看看运行结果

Python正则表达式的基本原理是什么

 findall()函数是返回所有匹配到的字符串,返回值的数据类型为列表。

常用符号

我们再来说说正则表达式的常用符号吧。

“.”字符为匹配任意单个字符。

“\”字符为转义字符。

“[…]”为字符集。

“(.*?)” 是python爬虫最常用的一个字符,叫贪心算法,可以匹配任意的字符。

 下面我们看一个示例代码。

import re a=‘xxixxjshdxxlovexxsfhxxpythonxx' data=re.findall(‘xx(.*?)xx') print(data)

我们运行一下,看下效果。

运行结果
[‘I’ ,‘love’,‘python’]

特殊字符

 所谓特殊字符,就是一些有特殊含义的字符,比如讲 runoo*b 中的 ,简单的说就是表示任何字符串的意思。如果要查找字符串中的 * 符号,则需要对 * 进行转义,即在其前加一个 \,runo*ob 匹配字符串 runo\*ob。

 许多元字符要求在试图匹配它们时特别对待。若要匹配这些特殊字符,必须首先使字符"转义",即,将反斜杠字符\ 放在它们前面。下表列出了正则表达式中的特殊字符:

特别字符描述
$

匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身,请使用 $。

()标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 ( 和 )。
*匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 *。
+匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 +。
.匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 . 。

 概念说了一大堆,大家可能也记不住,我直接说几个案例,大家就能明白其他的道理。

这是某网的HTML,部分片段如下:

<span class=“price”>§<i>123</i></span> <span class=“price”>§<i>133</i></span> <span class=“price”>§<i>156</i></span> <span class=“price”>§<i>189</i></span>

   大家会发现只有中间的一段不一样,而不一样的数据就是我们想要的,我们怎么用正则表达式提取出来呢.

<span class=“price”>§<i>(.*?)</i></span>

就可以了,我们看看效果吧。

123
133
156
189

感谢各位的阅读,以上就是“Python正则表达式的基本原理是什么”的内容了,经过本文的学习后,相信大家对Python正则表达式的基本原理是什么这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是编程网,小编将为大家推送更多相关知识点的文章,欢迎关注!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯