正则表达式

简介

正则表达式，又称规则表达式（Regular Expression，在代码中常简写为regex、regexp或RE），是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（“元字符”）。

正则表达式是一种用来描述规则的表达式，通常被用来检索、替换那些符合某个模式（规则）的文本。

正则表达式这个概念最初是由Unix中的工具软件（例如sed和grep）普及而来的，后广泛用于其他编程语言中。

正则的底层原理，就是使用状态机的思想进行模式匹配。大家可以利用regexper.com这个工具很好地可视化自己写的正则表达式的状态机。

正则表达式的基本组成元素可以分为：字符和元字符。

单个字符的映射关系是一对一, 最简单的正则就是单个字符。
部分特殊语义字符需要通过\来转义

使用集合区间和通配符的方式就可以实现一对多的匹配。

集合的定义方式是使用中括号 [ 和 ] 。如 /[123]/ 这个正则就能同时匹配1,2,3三个字符。如果想匹配所有的数字，可以用元字符 - 就可以用来表示区间范围，用 /[0-9]/ 就能匹配所有的数字, /[a-z]/ 则可以匹配所有的英文小写字母。

即便有了集合和区间的定义方式，如果要同时匹配多种字符也要一一列举，这是低效的。所以在正则表达式里衍生了一批用来同时匹配多个字符的简便正则表达式:

通过定义单个规则的出现次数，可以简化正则

特定次数：

- {x}: 恰好x次  
- {min, max}： 介于min次到max次之间  
- {min, }: 至少min次  
- {0, max}： 至多max次

对于正则的匹配，我们可以指定匹配的开始和结束位置

边界和标志	正则表达式	记忆方式
单词边界	\b	boundary
非单词边界	\B	not boundary
字符串开头	^	左上角
字符串结尾	$
多行模式	m标志	multiple of lines
忽略大小写	i标志	ignore case, case-insensitive
全局模式	g标志	global，多次匹配而非单次

说明：标志通常是作为独立参数，比如：

字符串：Hello what what is the first thing, and I am am scq000.

正则：\b(\w+)\s\1

匹配结果：
what what
am am

字符串：ab abb aab

正则：(?:a)(b)\1

匹配结果：
abb

字符串：happy happily

正则：happ(?=ily)

匹配结果：()中的内容不被匹配
happ(ily)

字符串：apple people

正则：(?<=ap)ple

匹配结果：()中的内容不被匹配
(ap)ple