正则表达式

正则表达式

正则表达式 - 语法

可打印普通字符匹配

普通字符包括没有显式指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。

字符描述
.匹配除换行符(\n、\r)之外的任何单个字符,相等于 [^\n\r]
\w匹配字母、数字、下划线。等价于 [A-Za-z0-9_]
\W 匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
[\s\S]匹配所有。\s 是匹配所有空白符,包括换行,\S 非空白符,不包括换行。
[ABC]匹配 [...] 中的所有字符,
例如 [aeiou] 匹配字符串 “google runoob taobao” 中所有的 e o u a 字母。
[^ABC]匹配除了 [...] 中字符的所有字符,
例如 [^aeiou] 匹配字符串 “google runoob taobao” 中除了 e o u a 字母的所有字母。
[A-Z][A-Z] 表示一个区间,匹配所有大写字母,[a-z] 表示所有小写字母。
\d匹配一个数字字符。等价于[0-9]
\D匹配一个非数字字符。等价于[^0-9]
\xnn十六进制转义字符序列。匹配两个十六进制数字nn表示的字符。
例如,“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码。
\num向后引用(back-reference)一个子字符串(substring),该子字符串与正则表达式的第num个用括号围起来的捕捉群(capture group)子表达式(subexpression)匹配。
其中num是从1开始的十进制正整数,其上限可能是9[注 2]、31[注 3]、99甚至无限[注 4]
例如:“(.)\1”匹配两个连续的相同字符。
\n标识一个八进制转义值或一个向后引用。
如果\n之前至少n个获取的子表达式,则n为向后引用。
否则,如果n为八进制数字(0-7),则n为一个八进制转义值。
\nm3位八进制数字,标识一个八进制转义值或一个向后引用。
如果\nm之前至少有nm个获得子表达式,则nm为向后引用。
如果\nm之前至少有n个获取,则n为一个后跟文字m的向后引用。
如果前面的条件都不满足,若nm均为八进制数字(0-7),则\nm将匹配八进制转义值nm
\nml如果n为八进制数字(0-3),且ml均为八进制数字(0-7),则匹配八进制转义值nml
\unUnicode转义字符序列。其中n是一个用四个十六进制数字表示的Unicode字符。
例如,\u00A9匹配著作权符号(©)。

非打印字符匹配

非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列:

字符描述
\cx匹配由x指明的控制字符。
例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 ‘c’ 字符。
\f匹配一个换页符。等价于 \x0c 和 \cL。
\n匹配一个换行符。等价于 \x0a 和 \cJ。
\r匹配一个回车符。等价于 \x0d 和 \cM。
\s匹配任何空白字符,包括空格、制表符、换页符等等。
等价于[\f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符。
\S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]
\t匹配一个制表符。等价于 \x09 和 \cI。
\v匹配一个垂直制表符。等价于 \x0b 和 \cK。
\W匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。

特殊字符

特别字符描述
\将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。
例如, ‘n’ 匹配字符 ‘n’。’\n’ 匹配换行符。序列 '\\' 匹配 "\"
^匹配输入字符串的开始位置,
当该符号在方括号表达式中使用时,表示不接受该方括号表达式中的字符集合。
要匹配 ^ 字符本身,请使用 \^
$匹配输入字符串的结尾位置。
如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身,请使用\$
( )标记一个子表达式的开始和结束位置。
子表达式可以获取供以后使用。要匹配这些字符,请使用\(\)
*匹配前面的子表达式零次或多次。要匹配 *字符,请使用\*
+匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+
?匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 ?。
.匹配除换行符 \n 之外的任何单字符。要匹配. ,请使用 \.
[标记一个中括号表达式的开始。要匹配 [,请使用 \[
{标记限定符表达式的开始。要匹配{,请使用\{
``

限定符(表达式匹配次数)

限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。

请注意,限定符出现在范围表达式之后。

字符描述
*匹配前面的子表达式零次或多次。
例如,zo* 能匹配 “z” 以及 “zoo”* 等价于 **{0,}**。
+匹配前面的子表达式一次或多次。
例如,zo+ 能匹配 “zo” 以及 “**zoo”**,但不能匹配 “z”+ 等价于 **{1,}**。
?匹配前面的子表达式零次或一次。
例如,do(es)? 可以匹配 “do”“does”“doxy” 中的 “do”? 等价于 **{0,1}**。
{n}n 是一个非负整数。匹配确定的 n 次。
例如,o{2} 不能匹配 “Bob” 中的 o,但是能匹配 “food” 中的两个 o
{n,}n 是一个非负整数。至少匹配n 次。
例如,o{2,} 不能匹配 “Bob” 中的 o,但能匹配 “foooood” 中的所有 oo{1,} 等价于 o+o{0,} 则等价于 **o***。
{n,m}m 和 n 均为非负整数,其中 n <= m。最少匹配 n 次且最多匹配 m 次。
例如,o{1,3} 将匹配 “fooooood” 中的前三个 oo{0,1} 等价于 **o?**。
请注意在逗号和两个数之间不能有空格。

定位符(确定 固定位置)

定位符使您能够将正则表达式固定到行首或行尾。它们还使您能够创建这样的正则表达式,这些正则表达式出现在一个单词内、在一个单词的开头或者一个单词的结尾。

字符描述
^匹配输入字符串开始的位置。
如果设置了 RegExp 对象的 Multiline 属性,^ 还会与 \n 或 \r 之后的位置匹配。
$匹配输入字符串结尾的位置。
如果设置了 RegExp 对象的 Multiline 属性,$ 还会与 \n 或 \r 之前的位置匹配。
\b匹配一个单词边界,即字与空格间的位置。
\B非单词边界匹配。

选择(捕获 保存)

字符描述
(pattern)匹配pattern并获取这一匹配的子字符串。该子字符串用于向后引用。
  • () 表示捕获分组,**()** 会把每个分组里的匹配的值保存起来, 多个匹配值可以通过数字 n 来查看(n 是一个数字,表示第 n 个捕获组的内容)。

  • 缓冲区编号从 1 开始。

  • 每个缓冲区都可以使用 $n 访问,其中 n 为一个标识特定缓冲区的一位或两位十进制数。例如 $1,$2 等等

    • 需要注意的是菜鸟教程里面写这里是用/n匹配, 在notepad++里面这个没问题, 但是VSCode并不能识别这个
  • 可以使用非捕获元字符 ?:?=?! 来重写捕获,忽略对相关匹配的保存。

1
2
3
4
5
6
7
8
# 原始串
https://en.wikipedia.org/wiki/Regular_expression
$ (\w+)://(.+?)/(.+)
$ $1 \n $2 \n $3
# 替换后
https
en.wikipedia.org
wiki/Regular_expression

非捕获元 ?: ?= ?<= ?! ?<!

字符描述
(pattern)匹配pattern并获取这一匹配的子字符串。该子字符串用于向后引用。
(?:pattern)匹配pattern但不获取匹配的子字符串(shy groups)
也就是说这是一个非获取匹配,不存储匹配的子字符串用于向后引用。
这在使用或字符“`(
(?=pattern)正向肯定预查(look ahead positive assert),在任何匹配pattern的字符串开始处匹配查找字符串。
这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。
例如,“`Windows(?=95
(?!pattern)正向否定预查(negative assert),在任何不匹配pattern的字符串开始处匹配查找字符串。
这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。
例如“`Windows(?!95
(?<=pattern)反向肯定预查(look behind positive assert),与正向肯定预查类似,只是方向相反。
例如,“`(?<=95
(?<!pattern)反向否定预查,与正向否定预查类似,只是方向相反。
例如“`(?<!95

正则表达式 - 修饰符

标记也称为修饰符,正则表达式的标记用于指定额外的匹配策略。

标记不写在正则表达式里,标记位于表达式之外,格式如下:

1
/pattern/flags

下表列出了正则表达式常用的修饰符:

修饰符含义描述
iignore - 不区分大小写将匹配设置为不区分大小写,搜索时不区分大小写: A 和 a 没有区别。
gglobal - 全局匹配查找所有的匹配项。
mmulti line - 多行匹配使边界字符 ^$ 匹配每一行的开头和结尾,记住是多行,而不是整个字符串的开头和结尾。
s特殊字符圆点 . 中包含换行符 \n默认情况下的圆点 . 是匹配除换行符 \n 之外的任何字符,加上 s 修饰符之后, . 中包含换行符 \n。

正则表达式 - 优先级

优先权符号
最高\
()(?:)(?=)[]
*+?{n}{n,}{n,m}
^$、中介字符
次最低串接,即相邻字符连接在一起
最低`

Note

贪婪匹配( ) 非贪婪匹配(?)

贪婪:下面的表达式匹配从开始小于符号 (<) 到关闭 h1 标记的大于符号 (>) 之间的所有内容。

1
2
3
4
5
6
# 原字符串
<h1>贪婪匹配 非贪婪匹配</h1>
# 贪婪匹配
$ <.*>
# 匹配到的字符串
<h1>贪婪匹配 非贪婪匹配</h1>

非贪婪:如果您只需要匹配开始和结束 h1标签,下面的非贪婪表达式只匹配<h1>

1
2
3
4
5
6
# 原字符串
<h1>贪婪匹配 非贪婪匹配</h1>
# 非贪婪匹配
$ <.*?>
# 匹配到的字符串
<h1>

通过在 *+? 限定符之后放置 **?**,该表达式从”贪婪”表达式转换为”非贪婪”表达式或者最小匹配。

参考

正则表达式 Wiki

正则表达式 菜鸟教程

Example

常用正则表达式匹配

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
#用户名	
/^[a-z0-9_-]{3,16}$/
#密码
/^[a-z0-9_-]{6,18}$/
#十六进制值 颜色 #ff02ff etc.
/^#?([a-f0-9]{6}|[a-f0-9]{3})$/
#电子邮箱
/^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$/
/^[a-z\d]+(\.[a-z\d]+)*@([\da-z](-[\da-z])?)+(\.{1,2}[a-z]+)+$/
#URL
/^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/
#IP 地址
/((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)/
/^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$/
#HTML 标签
/^<([a-z]+)([^<]+)*(?:>(.*)<\/\1>|\s+\/>)$/
#删除代码\\注释
(?<!http:|\S)//.*$
#Unicode编码中的汉字范围
/^[\u2E80-\u9FFF]+$/

正则表达式替换

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
原始串 
str[1]abc[991];
str[2]abc[992];
str[11]abc[993];
str[22]abc[994];
str[111]abc[995];
str[222]abc[996];
str[1111]abc[997];
str[2222]abc[999];

目标串:
abc[1];
abc[2];
abc[11];
abc[22];
abc[111];
abc[222];
abc[1111];
abc[2222];

处理:
查找串:str/[([0-9]+)/]abc/[[0-9]+/]
替换串:abc[/1]

正则表达式示例

下面列出一些正则表达式示例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72

# 一个单词连续出现的位置。
/\b([a-z]+) \1\b/gi
# 匹配一个 URL 解析为协议、域、端口及相对路径。
/(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)/
# 定位章节的位置。
/^(?:Chapter|Section) [1-9][0-9]{0,1}$/
# a 至 z 共 26个 字母再加一个 - 号。
/[-a-z]/
# 可匹配 chapter,而不能匹配 terminal。
/ter\b/
# 可匹配 chapter,而不能匹配 aptitude。
/\Bapt/
# 可匹配 Windows95 或 Windows98 或 WindowsNT,当找到一个匹配后,从 Windows 后面开始进行下一次的检索匹配。
/Windows(?=95 |98 |NT )/
# 匹配空行。
/^\s*$/
# 验证由两位数字、一个连字符再加 5 位数字组成的 ID 号。
/\d{2}-\d{5}/
# 匹配 HTML 标签
<[a-zA-Z]+.*?>([\s\S]*?)</[a-zA-Z]*?>

# 匹配 {hello}
hello
# 匹配 {gray, grey}
gray|grey
# 匹配 {gray, grey}
gr(a|e)y
# 匹配 {gray, grey}
gr[ae]y
# 匹配 {babble, bebble, bibble, bobble, bubble}
b[aeiou]bble
# 匹配 {bat, cat, hat, mat, nat, oat, pat, Pat, ot}
[b-chm-pP]at|ot
# 匹配 {color, colour}
colou?r
# 匹配 {regex, regexes, regexp, regexps}
rege(x(es)?|xps?)
# 匹配 {ggle, gogle, google, gooogle, goooogle, ...}
go*gle
# 匹配 {gogle, google, gooogle, goooogle, ...}
go+gle
# 匹配 {google, googoogle, googoogoogle, googoogoogoogle, ...}
g(oog)+le
# 匹配 {zzz}
z{3}
# 匹配 {zzz, zzzz, zzzzz, zzzzzz}
z{3,6}
# 匹配 {zzz, zzzz, zzzzz, ...}
z{3,}
# 匹配 {Brainf**k, brainf**k}
[Bb]rainf\*\*k
# 匹配 {0,1,2,3,4,5,6,7,8,9}
\d
# 匹配 11 个数字,以 1 开头
1\d{10}
# 匹配 2 到 36 范围内的整数
[2-9]|[12]\d|3[0-6]
# 匹配 Hello 后跟换行符,后跟 world
Hello\nworld
# 包含一个正整数或包含两位小数位的浮点数。
\d+(\.\d\d)?
# 排除 *、@ 、# 三个特色符号
[^*@#]
# 匹配 // 开头的注释
//[^\r\n]*[\r\n]
# 匹配以 "dog" 开始
^dog
# 匹配以 "dog" 结尾
dog$
# is exactly "dog"
^dog$

正则表达式
https://www.oikiou.top/2022/2f57a694/
作者
Oikiou
发布于
2022年1月21日
许可协议