re模块(正则表达式)
re模块是文件处理中必不可少的模块,它主要应用于字符串的查找,定位等等,在使用网络爬虫时,即使没有爬虫框架,re模块配合urllib.request模块也可以完成简单的爬虫功能,先来看看正则表达式,python支持的正则表达式元字符和语法
1 字符
. 点匹配任意除换行符\n外的字符,abc匹配abc
\ 转义字符,使后一个字符改变原来的意思,a\.bc匹配a.bc
[...] 字符集(字符类),对应字符集中的任意字符,第一个字符是^则取反,a[bc]d匹配abd或者acd
2 预定义字符集
\d 数字[0-9],匹配数字0-9
\D 非数字[^\d],即匹配非数字
\s 空白字符[空格\t\r\n\f\v]
\S 非空白字符[^\s]
\w 单词字符[a-zA-Z0-9]
\W 非单词字符[^\w]
3 数量词
* 匹配前一个字符0或者无限次,al*b 匹配 ab,alb,allb .....
+ 匹配前一个字符1或者无限次,al+b 匹配 alb,allb .....
? 匹配前一个字符0或1次,al?b 匹配 ab,alb
{m} 匹配前一个字符m次,al{3}b 匹配 alllb
{m,n} 匹配前一个字符m至n次,al{2,3}b 匹配 allb,alllb
4 边界匹配
^ 匹配字符串开头,如^abc 匹配 以abc开头的字符串
$ 匹配字符串结尾,如xyz$ 匹配以xyz结尾的字符串
\A 仅匹配字符串开头,如\Aabc
\Z 仅匹配字符串结尾,如xyz\Z
python的re模块提供了两种不同的原始操作:match和search,match是从字符串的起点开始做匹配,而search是对字符串做任意匹配,最常用的几个re模块方法如下
re.compile(pattern,flags=0) 将字符串形式的正则表达式编译为Pattern对象
re.search(string[,pos[,endpos]]) 从string的任意位置开始匹配
re.match(string[,pos[,endpos]]) 从string的开头开始匹配
re.findall(string[,pos[,endpos]]) 从string任意位置开始匹配,返回一个列表
re.finditer(string[,pos[,endpos]]) 从string任意位置开始匹配,返回一个迭代器,一般匹配findall就可以了,大数量的匹配还是使用finditer比较好
简单的测试一下,打开IDLE执行命令