文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

javascript正则表达式的知识点有哪些

2024-04-02 19:55

关注

本篇内容介绍了“javascript正则表达式的知识点有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

正则基础知识点

1.元字符

万物皆有缘,正则也是如此,元字符是构造正则表达式的一种基本元素。

我们先来记几个常用的元字符:

元字符说明.匹配除换行符以外的任意字符w匹配字母或数字或下划线或汉字s匹配任意的空白符d匹配数字匹配单词的开始或结束^匹配字符串的开始$匹配字符串的结束

有了元字符之后,我们就可以利用这些元字符来写一些简单的正则表达式了,

比如:

匹配有abc开头的字符串:

abc或者^abc

匹配8位数字的QQ号码:

^dddddddd$

匹配1开头11位数字的手机号码:

^1dddddddddd$

2. 重复限定符

有了元字符就可以写不少的正则表达式了,但细心的你们可能会发现:别人写的正则简洁明了,而不理君写的正则一堆乱七八糟而且重复的元字符组成的。正则没提供办法处理这些重复的元字符吗?

答案是有的!

为了处理这些重复问题,正则表达式中一些重复限定符,把重复部分用合适的限定符替代,下面我们来看一些限定符:

语法说明*重复零次或更多次+重复一次或更多次?重复零次或一次{n}重复n次{n,}重复n次或更多次{n,m}重复n到m次

有了这些限定符之后,我们就可以对之前的正则表达式进行改造了,比如:

匹配8位数字的QQ号码:

^d{8}$

匹配1开头11位数字的手机号码:

^1d{10}$

匹配银行卡号是14~18位的数字:

^d{14,18}$

匹配以a开头的,0个或多个b结尾的字符串

^ab*$

3. 分组

从上面的例子(4)中看到,限定符是作用在与他左边最近的一个字符,那么问题来了,如果我想要ab同时被限定那怎么办呢?

正则表达式中用小括号()来做分组,也就是括号中的内容作为一个整体。

因此当我们要匹配多个ab时,我们可以这样

如:匹配字符串中包含0到多个ab开头:

^(ab)*

4. 转义

我们看到正则表达式用小括号来做分组,那么问题来了:

如果要匹配的字符串中本身就包含小括号,那是不是冲突?应该怎么办?

针对这种情况,正则提供了转义的方式,也就是要把这些元字符、限定符或者关键字转义成普通的字符,做法很简答,就是在要转义的字符前面加个斜杠,也就是即可。

如:要匹配以(ab)开头:

^((ab))*

5. 条件或

回到我们刚才的手机号匹配,我们都知道:国内号码都来自三大网,它们都有属于自己的号段,比如联通有130/131/132/155/156/185/186/145/176等号段,假如让我们匹配一个联通的号码,那按照我们目前所学到的正则,应该无从下手的,因为这里包含了一些并列的条件,也就是“或”,那么在正则中是如何表示“或”的呢?

正则用符号 | 来表示或,也叫做分支条件,当满足正则里的分支条件的任何一种条件时,都会当成是匹配成功。

那么我们就可以用或条件来处理这个问题

^(130|131|132|155|156|185|186|145|176)d{8}$

6. 区间

看到上面的例子,是不是看到有什么规律?是不是还有一种想要简化的冲动?

实际是有的

正则提供一个元字符中括号 [] 来表示区间条件。

那上面的正则我们还改成这样:

^((13[0-2])|(15[56])|(18[5-6])|145|176)d{8}$

好了,正则表达式的基本用法就讲到这里了,其实它还有非常多的知识点以及元字符,我们在此只列举了部分元字符和语法来讲,旨在给那些不懂正则或者想学正则但有看不下去文档的人做一个快速入门级的教程,看完本教程,即使你不能写出高大上的正则,至少也能写一些简单的正则或者看得懂别人写的正则了。

正则进阶知识点

1. 零宽断言

无论是零宽还是断言,听起来都古古怪怪的,

那先解释一下这两个词。

意思是讲明白了,那他有什么用呢?

我们来举个栗子:

假设我们要用爬虫抓取csdn里的文章阅读量。通过查看源代码可以看到文章阅读量这个内容是这样的结构

"<span class="read-count">阅读数:641</span>"

其中也就&lsquo;641&rsquo;这个是变量,也就是说不同文章不同的值,当我们拿到这个字符串时,需要获得这里边的&lsquo;641&rsquo;有很多种办法,但如果正则应该怎么匹配呢?

下面先来讲几种类型的断言:

这样子说,还是一脸懵逼,好吧,回归刚才那个栗子,要取到阅读量,在正则表达式中就意味着要能匹配到&lsquo;&rsquo;前面的数字内容

按照上所说的正向先行断言可以匹配表达式前面的内容,那意思就是:(?=) 就可以匹配到前面的内容了。

匹配什么内容呢?如果要所有内容那就是:

 String reg=".+(?=</span>)";  String test = "<span class="read-count">阅读数:641</span>";  Pattern pattern = Pattern.compile(reg);  Matcher mc= pattern.matcher(test);  while(mc.find()){  System.out.println("匹配结果:")  System.out.println(mc.group());  } //匹配结果: //<span class="read-count">阅读数:641

可是老哥我们要的只是前面的数字呀,那也简单咯,匹配数字 d,那可以改成:

String reg="\d+(?=</span>)"; String test = "<span class="read-count">阅读数:641</span>"; Pattern pattern = Pattern.compile(reg); Matcher mc= pattern.matcher(test); while(mc.find()){  System.out.println(mc.group()); } //匹配结果: //641

大功告成!

有先行就有后行,先行是匹配前面的内容,那后行就是匹配后面的内容啦。

上面的栗子,我们也可以用后行断言来处理.

 //(?<=<span class="read-count">阅读数:)d+  String reg="(?<=<span class="read-count">阅读数:)\d+";  String test = "<span class="read-count">阅读数:641</span>";  Pattern pattern = Pattern.compile(reg);  Matcher mc= pattern.matcher(test);  while(mc.find()){  System.out.println(mc.group());  } //匹配结果: //641

就这么简单。

有正向也有负向,负向在这里其实就是非的意思。

举个栗子:比如有一句 “我爱祖国,我是祖国的花朵”

现在要找到不是'的花朵'前面的祖国

用正则就可以这样写:

祖国(?!的花朵)

2. 捕获和非捕获

单纯说到捕获,他的意思是匹配表达式,但捕获通常和分组联系在一起,也就是“捕获组”

捕获组:匹配子表达式的内容,把匹配结果保存到内存中中数字编号或显示命名的组里,以深度优先进行编号,之后可以通过序号或名称来使用这些匹配结果。

而根据命名方式的不同,又可以分为两种组:

序号编号分组内容00(0d{2})-(d{8})020-8565333311(0d{2})02022(d{8})85653333

我们用Java来验证一下:

String test = "020-85653333"; String reg="(0\d{2})-(\d{8})"; Pattern pattern = Pattern.compile(reg); Matcher mc= pattern.matcher(test); if(mc.find()){ System.out.println("分组的个数有:"+mc.groupCount()); for(int i=0;i<=mc.groupCount();i++){ System.out.println("第"+i+"个分组为:"+mc.group(i)); } }

输出结果:

分组的个数有:2 第0个分组为:020-85653333 第1个分组为:020 第2个分组为:85653333

可见,分组个数是2,但是因为第0个为整个表达式本身,因此也一起输出了。

序号名称分组内容00(0d{2})-(d{8})020-856533331quhao(0d{2})0202haoma(d{8})85653333

用代码来验证一下:

String test = "020-85653333";  String reg="(?<quhao>0\d{2})-(?<haoma>\d{8})";  Pattern pattern = Pattern.compile(reg);  Matcher mc= pattern.matcher(test);  if(mc.find()){  System.out.println("分组的个数有:"+mc.groupCount());  System.out.println(mc.group("quhao"));  System.out.println(mc.group("haoma"));  }

输出结果:

分组的个数有:2 分组名称为:quhao,匹配内容为:020 分组名称为:haoma,匹配内容为:85653333

比如上面的正则表达式,程序不需要用到***个分组,那就可以这样写:

(?:d{2})-(d{8})

序号编号分组内容00(0d{2})-(d{8})020-8565333311(d{8})85653333

验证一下:

String test = "020-85653333";  String reg="(?:0\d{2})-(\d{8})";  Pattern pattern = Pattern.compile(reg);  Matcher mc= pattern.matcher(test);  if(mc.find()){  System.out.println("分组的个数有:"+mc.groupCount());  for(int i=0;i<=mc.groupCount();i++){  System.out.println("第"+i+"个分组为:"+mc.group(i));  }  }

输出结果:

分组的个数有:1 第0个分组为:020-85653333 第1个分组为:85653333

3. 反向引用

上面讲到捕获,我们知道:捕获会返回一个捕获组,这个分组是保存在内存中,不仅可以在正则表达式外部通过程序进行引用,也可以在正则表达式内部进行引用,这种引用方式就是反向引用

根据捕获组的命名规则,反向引用可分为:

好了 讲完了,懂吗?不懂!!!

可能连前面讲的捕获有什么用都还不懂吧?

其实只是看完捕获不懂不会用是很正常的!

因为捕获组通常是和反向引用一起使用的

上面说到捕获组是匹配子表达式的内容按序号或者命名保存起来以便使用

注意两个字眼:“内容” 和 “使用”

这里所说的“内容”,是匹配结果,而不是子表达式本身,强调这个有什么用?嗯,先记住

那这里所说的“使用”是怎样使用呢?

因为它的作用主要是用来查找一些重复的内容或者做替换指定字符。

还是举栗子吧:

比如要查找一串字母"aabbbbgbddesddfiid"里成对的字母

如果按照我们之前学到的正则,什么区间啊限定啊断言啊可能是办不到的,

现在我们先用程序思维理一下思路:

这里的思路2中匹配下一个字母时,需要用到上一个字母,那怎么记住上一个字母呢???

这下子捕获就有用处啦,我们可以利用捕获把上一个匹配成功的内容用来作为本次匹配的条件

好了,有思路就要实践

首先匹配一个字母:w

我们需要做成分组才能捕获,因此写成这样:(w)

那这个表达式就有一个捕获组:(w)

然后我们要用这个捕获组作为条件,那就可以:(w)

这样就大功告成了

可能有人不明白了,是什么意思呢?

还记得捕获组有两种命名方式吗,一种是是根据捕获分组顺序命名,一种是自定义命名来作为捕获组的命名

在默认情况下都是以数字来命名,而且数字命名的顺序是从1开始的

因此要引用***个捕获组,根据反向引用的数字命名规则 就需要 k<1>或者

当然,通常都是是后者。

我们来测试一下:

String test = "aabbbbgbddesddfiid";  Pattern pattern = Pattern.compile("(\w)\1");  Matcher mc= pattern.matcher(test);  while(mc.find()){  System.out.println(mc.group());  }

输出结果:

aa bb bb dd dd ii

嗯,这就是我们想要的了。

在举个替换的例子,假如想要把字符串中abc换成a

String test = "abcbbabcbcgbddesddfiid"; String reg="(a)(b)c"; System.out.println(test.replaceAll(reg, "$1"));;

输出结果:

abbabcgbddesddfiid

4. 贪婪和非贪婪

1.贪婪

我们都知道,贪婪就是不满足,尽可能多的要。

在正则中,贪婪也是差不多的意思:

贪婪匹配:当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符,这匹配方式叫做贪婪匹配。

特性:一次性读入整个字符串进行匹配,每当不匹配就舍弃最右边一个字符,继续匹配,依次匹配和舍弃(这种匹配-舍弃的方式也叫做回溯),直到匹配成功或者把整个字符串舍弃完为止,因此它是一种***化的数据返回,能多不会少。

前面我们讲过重复限定符,其实这些限定符就是贪婪量词,比如表达式:

d{3,6}

用来匹配3到6位数字,在这种情况下,它是一种贪婪模式的匹配,也就是假如字符串里有6个个数字可以匹配,那它就是全部匹配到。

String reg="\d{3,6}"; String test="61762828 176 2991 871"; System.out.println("文本:"+test); System.out.println("贪婪模式:"+reg); Pattern p1 =Pattern.compile(reg); Matcher m1 = p1.matcher(test);  while(m1.find()){  System.out.println("匹配结果:"+m1.group(0));  }

输出结果:

文本:61762828 176 2991 44 871 贪婪模式:d{3,6} 匹配结果:617628 匹配结果:176 匹配结果:2991 匹配结果:871

由结果可见:本来字符串中的“61762828”这一段,其实只需要出现3个(617)就已经匹配成功了的,但是他并不满足,而是匹配到了***能匹配的字符,也就是6个。

一个量词就如此贪婪了,

那有人会问,如果多个贪婪量词凑在一起,那他们是如何支配自己的匹配权的呢?

是这样的,多个贪婪在一起时,如果字符串能满足他们各自***程度的匹配时,就互不干扰,但如果不能满足时,会根据深度优先原则,也就是从左到右的每一个贪婪量词,优先***数量的满足,剩余再分配下一个量词匹配。

String reg="(\d{1,2})(\d{3,4})"; String test="61762828 176 2991 87321"; System.out.println("文本:"+test); System.out.println("贪婪模式:"+reg); Pattern p1 =Pattern.compile(reg); Matcher m1 = p1.matcher(test);  while(m1.find()){  System.out.println("匹配结果:"+m1.group(0));  }

输出结果:

文本:61762828 176 2991 87321 贪婪模式:(d{1,2})(d{3,4}) 匹配结果:617628 匹配结果:2991 匹配结果:87321

2. 懒惰(非贪婪)

懒惰匹配:当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能少的字符,这匹配方式叫做懒惰匹配。

特性:从左到右,从字符串的最左边开始匹配,每次试图不读入字符匹配,匹配成功,则完成匹配,否则读入一个字符再匹配,依此循环(读入字符、匹配)直到匹配成功或者把字符串的字符匹配完为止。

懒惰量词是在贪婪量词后面加个“?”

代码说明*?重复任意次,但尽可能少重复+?重复1次或更多次,但尽可能少重复??重复0次或1次,但尽可能少重复{n,m}?重复n到m次,但尽可能少重复{n,}?重复n次以上,但尽可能少重复

String reg="(\d{1,2}?)(\d{3,4})";  String test="61762828 176 2991 87321";  System.out.println("文本:"+test);  System.out.println("贪婪模式:"+reg);  Pattern p1 =Pattern.compile(reg);  Matcher m1 = p1.matcher(test);  while(m1.find()){  System.out.println("匹配结果:"+m1.group(0));  }

输出结果:

文本:61762828 176 2991 87321 贪婪模式:(d{1,2}?)(d{3,4}) 匹配结果:61762 匹配结果:2991 匹配结果:87321

解答:

“61762” 是左边的懒惰匹配出6,右边的贪婪匹配出1762

"2991" 是左边的懒惰匹配出2,右边的贪婪匹配出991

"87321" 左边的懒惰匹配出8,右边的贪婪匹配出7321

5. 反义

前面说到元字符的都是要匹配什么什么,当然如果你想反着来,不想匹配某些字符,正则也提供了一些常用的反义元字符:

元字符解释W匹配任意不是字母,数字,下划线,汉字的字符S匹配任意不是空白符的字符D匹配任意非数字的字符B匹配不是单词开头或结束的位置[x]匹配除了x以外的任意字符[aeiou]匹配除了aeiou这几个字母以外的任意字符

“javascript正则表达式的知识点有哪些”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-前端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯