文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Java正则表达式中Pattern类怎么用

2023-06-26 05:31

关注

本篇内容主要讲解“Java正则表达式中Pattern类怎么用”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Java正则表达式中Pattern类怎么用”吧!

前言

在Java中,java.util.regex包定义了正则表达式使用到的相关类,其中最主要的两个类为:Pattern、Matcher:

另加一个新的例外类,PatternSyntaxException,当遇到不合法的搜索模式时,会抛出例外。

Pattern 概述

声明:public final class Pattern implements java.io.Serializable

Pattern 类有final修饰,可知他不能被子类继承。

含义:模式类,正则表达式的编译表示形式。

注意:此类的实例是不可变的,可供多个并发线程安全使用。

Pattern 匹配模式(Pattern flags)

compile( )方法有一个版本,它需要一个控制正则表达式的匹配行为的参数:

Pattern Pattern.compile(String regex, int flag)

flag 的取值范围

字段说明
Pattern.UNIX_LINES        unix行模式,大多数系统的行都是以\n结尾的,但是少数系统,比如Windows,却是以\r\n组合来结尾的,启用这个模式之后,将会只以\n作为行结束符,这会影响到^、$和点号(点号匹配换行符)。
        通过嵌入式标志表达式 (?d) 也可以启用 Unix 行模式。
Pattern.CASE_INSENSITIVE        默认情况下,大小写不敏感的匹配只适用于US-ASCII字符集。这个标志能让表达式忽略大小写进行匹配。要想对Unicode字符进行大小不明感的匹配,只要将UNICODE_CASE与这个标志合起来就行了。
        通过嵌入式标志表达式(?i)也可以启用不区分大小写的匹配。
        指定此标志可能对性能产生一些影响。
Pattern.COMMENTS ⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢        这种模式下,匹配时会忽略(正则表达式里的)空格字符(不是指表达式里的”//s”,而是指表达式里的空格,tab,回车之类)和注释(从#开始,一直到这行结束)。
        通过嵌入式标志表达式(?x) 也可以启用注释模式。
Pattern.MULTILINE        默认情况下,输入的字符串被看作是一行,即便是这一行中包好了换行符也被看作一行。当匹配“^”到“$”之间的内容的时候,整个输入被看成一个一行。启用多行模式之后,包含换行符的输入将被自动转换成多行,然后进行匹配。
        通过嵌入式标志表达式 (?m) 也可以启用多行模式。
Pattern.LITERAL        启用字面值解析模式。
        指定此标志后,指定模式的输入字符串就会作为字面值字符序列来对待。输入序列中的元字符或转义序列不具有任何特殊意义。
        标志 CASE_INSENSITIVE 和 UNICODE_CASE 在与此标志一起使用时将对匹配产生影响。其他标志都变得多余了。
        不存在可以启用字面值解析的嵌入式标志字符。
Pattern.DOTALL        在这种模式中,表达式 .可以匹配任何字符,包括行结束符。默认情况下,此表达式不匹配行结束符。
        通过嵌入式标志表达式 (?s) 也可以启用此种模式(s 是 “single-line” 模式的助记符,在 Perl 中也使用它)。
Pattern.UNICODE_CASE        在这个模式下,如果你还启用了CASE_INSENSITIVE标志,那么它会对Unicode字符进行大小写不敏感的匹配。默认情况下,大小写不明感的匹配只适用于US-ASCII字符集。
        指定此标志可能对性能产生影响。
Pattern.CANON_EQ        当且仅当两个字符的正规分解(canonical decomposition)都完全相同的情况下,才认定匹配。比如用了这个标志之后,表达式a/u030A会匹配?。默认情况下,不考虑规范相等性(canonical equivalence)。
        指定此标志可能对性能产生影响。

在这些标志里面,Pattern.CASE_INSENSITIVE,Pattern.MULTILINE,以及Pattern.COMMENTS是最有用的(其中Pattern.COMMENTS还能帮我们把思路理清楚,并且/或者做文档)。注意,你可以用在表达式里插记号的方式来启用绝大多数的模式。这些记号就在上面那张表的各个标志的下面。你希望模式从哪里开始启动,就在哪里插记号。

可以用OR (|)运算符把这些标志配合使用。

代码示例

多行模式:Pattern.MULTILINE 示例

我测试了一下,也就是说如果没有 MULTILINE 标志的话, ^ 和 $ 只能匹配输入序列的开始和结束;否则,就可以匹配输入序列内部的行结束符。测试代码如下:

import java.util.regex.*;public class ReFlags_MULTILINE {    public static void main(String[] args) {        // 注意里面的换行符        String str = "hello world\r\n" + "hello java\r\n" + "hello java";        System.out.println("===========匹配字符串开头(非多行模式)===========");        Pattern p = Pattern.compile("^hello");        Matcher m = p.matcher(str);        while (m.find()) {            System.out.println(m.group() + "   位置:[" + m.start() + "," + m.end() + "]");        }        System.out.println("===========匹配字符串开头(多行模式)===========");        p = Pattern.compile("^hello", Pattern.MULTILINE);        m = p.matcher(str);        while (m.find()) {            System.out.println(m.group() + "   位置:[" + m.start() + "," + m.end() + "]");        }        System.out.println("===========匹配字符串结尾(非多行模式)===========");        p = Pattern.compile("java$");        m = p.matcher(str);        while (m.find()) {            System.out.println(m.group() + "   位置:[" + m.start() + "," + m.end() + "]");        }        System.out.println("===========匹配字符串结尾(多行模式)===========");        p = Pattern.compile("java$", Pattern.MULTILINE);        m = p.matcher(str);        while (m.find()) {            System.out.println(m.group() + "   位置:[" + m.start() + "," + m.end() + "]");        }    }}

===========匹配字符串开头(非多行模式)===========
hello   位置:[0,5]
===========匹配字符串开头(多行模式)===========
hello   位置:[0,5]
hello   位置:[13,18]
hello   位置:[25,30]
===========匹配字符串结尾(非多行模式)===========
java   位置:[31,35]
===========匹配字符串结尾(多行模式)===========
java   位置:[19,23]
java   位置:[31,35]

忽略大小写:Pattern.CASE_INSENSITIVE 示例

有的时候,需要进行忽略大小写的匹配。该例子实现匹配摄氏温度和华氏温度,对于以C、c、F和f结尾的温度值都能匹配。

import java.util.regex.Pattern;public class ReFlags_CASE_INSENSITIVE {    public static void main(String[] args) {        System.out.println("===========API忽略大小写===========");        String moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*[CF]";        Pattern p = Pattern.compile(moneyRegex,Pattern.CASE_INSENSITIVE);        System.out.println("-3.33c   " + p.matcher("-3.33c").matches());        System.out.println("-3.33C   " + p.matcher("-3.33C").matches());        System.out.println("===========不忽略大小写===========");        moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*[CF]";        p = Pattern.compile(moneyRegex);        System.out.println("-3.33c   " + p.matcher("-3.33c").matches());        System.out.println("-3.33C   " + p.matcher("-3.33C").matches());        System.out.println("===========正则内部忽略大小写===========");        moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*(?i)[CF]";        p = Pattern.compile(moneyRegex);        System.out.println("-3.33c   " + p.matcher("-3.33c").matches());        System.out.println("-3.33C   " + p.matcher("-3.33C").matches());        System.out.println("===========内部不忽略大小写===========");        moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*[CF]";        p = Pattern.compile(moneyRegex);        System.out.println("-3.33c   " + p.matcher("-3.33c").matches());        System.out.println("-3.33C   " + p.matcher("-3.33C").matches());    }}

===========API忽略大小写===========
-3.33c   true
-3.33C   true
===========不忽略大小写===========
-3.33c   false
-3.33C   true
===========正则内部忽略大小写===========
-3.33c   true
-3.33C   true
===========内部不忽略大小写===========
-3.33c   false
-3.33C   true

启用注释:Pattern.COMMENTS 示例

启用注释,开启之后,正则表达式中的空格以及#号行将被忽略。

import java.util.regex.Pattern;public class ReFlags_COMMENTS {    public static void main(String[] args) {        System.out.println("===========API启用注释===========");        String comments = "    (\\d)+#this is comments.";        Pattern p = Pattern.compile(comments, Pattern.COMMENTS);        System.out.println("1234   " + p.matcher("1234").matches());        System.out.println("===========不启用注释===========");        comments = "    (\\d)+#this is comments.";        p = Pattern.compile(comments);        System.out.println("1234   " + p.matcher("1234").matches());        System.out.println("===========正则启用注释===========");        comments = "(?x)    (\\d)+#this is comments.";        p = Pattern.compile(comments);        System.out.println("1234   " + p.matcher("1234").matches());        System.out.println("===========不启用注释===========");        comments = "    (\\d)+#this is comments.";        p = Pattern.compile(comments);        System.out.println("1234   " + p.matcher("1234").matches());    }}

===========API启用注释===========
1234   true
===========不启用注释===========
1234   false
===========正则启用注释===========
1234   true
===========不启用注释===========
1234   false

可以看到,#号到行尾的注释部分和前面的空白字符都被忽略了。正则表达式内置的启用注释为(?x)。

启用 dotall 模式:Pattern.DOTALL 示例

启用dotall模式,一般情况下,点号(.)匹配任意字符,但不匹配换行符,启用这个模式之后,点号还能匹配换行符。

import java.util.regex.Pattern;public class ReFlags_DOTALL {    public static void main(String[] args) {        System.out.println("===========API启用DOTALL===========");        String dotall = "<xml>(.)*</xml>";        Pattern p = Pattern.compile(dotall, Pattern.DOTALL);        System.out.println("<xml>\\r\\n</xml>   " + p.matcher("<xml>\r\n</xml>").matches());        System.out.println("===========不启用DOTALL===========");        dotall = "<xml>(.)*</xml>";        p = Pattern.compile(dotall);        System.out.println("<xml>\\r\\n</xml>   " + p.matcher("<xml>\r\n</xml>").matches());        System.out.println("===========正则启用DOTALL===========");        dotall = "(?s)<xml>(.)*</xml>";        p = Pattern.compile(dotall);        System.out.println("<xml>\\r\\n</xml>   " + p.matcher("<xml>\r\n</xml>").matches());        System.out.println("===========不启用DOTALL===========");        dotall = "<xml>(.)*</xml>";        p = Pattern.compile(dotall);        System.out.println("<xml>\\r\\n</xml>   " + p.matcher("<xml>\r\n</xml>").matches());    }}

===========API启用DOTALL===========
<xml>\r\n</xml>   true
===========不启用DOTALL===========
<xml>\r\n</xml>   false
===========正则启用DOTALL===========
<xml>\r\n</xml>   true
===========不启用DOTALL===========
<xml>\r\n</xml>   false

平白字符模式 模式:Pattern.LITERAL 示例

启用这个模式之后,所有元字符、转义字符都被看成普通的字符,不再具有其他意义。

import java.util.regex.Pattern;public class ReFlags_LITERAL {    public static void main(String[] args) {        System.out.println(Pattern.compile("\\d", Pattern.LITERAL).matcher("\\d").matches());// true        System.out.println(Pattern.compile("\\d", Pattern.LITERAL).matcher("2").matches());// false        System.out.println(Pattern.compile("(\\d)+", Pattern.LITERAL).matcher("1234").matches());// false        System.out.println(Pattern.compile("(\\d)+").matcher("1234").matches());// true        System.out.println(Pattern.compile("(\\d){2,3}", Pattern.LITERAL).matcher("(\\d){2,3}").matches());// true    }}

附:贪婪匹配与懒惰匹配

考虑这个表达式:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。

有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。

a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab和ab。

public static void main(String[] args) {        String str = "北京市(海淀区)(朝阳区)";        String paternStr = ".*(?=\\()";        Pattern pattern = Pattern.compile(paternStr);        Matcher matcher = pattern.matcher(str);        if (matcher.find()) {            System.out.println(matcher.group(0));        }}

上述方法的输出为:北京市(海淀区)

public static void main(String[] args) {        String str = "北京市(海淀区)(朝阳区)";        String paternStr = ".*?(?=\\()";        Pattern pattern = Pattern.compile(paternStr);        Matcher matcher = pattern.matcher(str);        if (matcher.find()) {            System.out.println(matcher.group(0));        }}

上述方法输出:北京市

到此,相信大家对“Java正则表达式中Pattern类怎么用”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯