您的位置:

深入jsmatchall:JS正则表达式的全局匹配函数

一、jsmatchall的基本用法

jsmatchall是JS正则表达式中的全局匹配函数。在常见的字符串处理、模板解析、数据抽取等场景中,它非常有用。其基本语法如下:

let results = str.matchAll(regexp);

其中,regexp表示正则表达式,而str则表示字符串。这个方法返回一个迭代器,可以用来遍历字符串中满足正则表达式要求的所有匹配结果:

let str = "123456789";
let regexp = /\d{3}/g;
let results = str.matchAll(regexp);

for (let match of results) {
  console.log(match[0]); // 123, 456, 789
}

上面的例子中,正则表达式\d{3}表示匹配三个连续的数字。由于设置了全局匹配标志g,因此matchAll函数返回的迭代器会迭代出所有匹配的结果。

除了遍历,matchAll还可以将匹配结果转换为数组的形式。只需要使用Array.from方法即可:

let str = "123456789";
let regexp = /\d{3}/g;
let results = Array.from(str.matchAll(regexp));
console.log(results); // [[123], [456], [789]]

二、使用groups属性访问匹配结果

除了返回匹配到的字符串,正则表达式还经常需要捕获其中的一些内容。JS中可以使用捕获组来完成这个任务。在matchAll函数中,可以使用groups属性访问每个捕获组:

let str = "2022-01-28";
let regexp = /(\d{4})-(\d{2})-(\d{2})/;
let results = Array.from(str.matchAll(regexp));

for (let match of results) {
  let year = match.groups.year;
  let month = match.groups.month;
  let day = match.groups.day;

  console.log(year, month, day); // 2022 01 28
}

上面的例子中,正则表达式使用了三个捕获组,分别对应年月日。而在结果中,每个match对象都有一个groups属性可以访问到这些组的值。

三、使用lookahead和lookbehind

JS的正则表达式除了普通的匹配和捕获,还提供了lookahead和lookbehind这两种特殊的断言形式。它们可以让正则表达式只匹配某些特定的位置,而不是具体的字符。

示例代码如下:

let str = "CAFE BAZ";
let regexp = /(?<=CAFE\s)(.+?)(?=\sBAZ)/;
let match = Array.from(str.matchAll(regexp))[0];

console.log(match.groups[0]); // "BAZ"

正则表达式/(?<=CAFE\s)(.+?)(?=\sBAZ)/表示匹配距离'CAFE '后、' BAZ'前的内容。其中,?<=语法表示positive lookbehind,该断言表示匹配前面是指定的文本(这里是'CAFE '),但不包括这个文本在内。?=语法表示positive lookahead,该断言表示匹配后面是指定的文本(这里是' BAZ'),但不包括这个文本在内。

四、使用$&和$1引用匹配结果

在正则表达式中,$&表示匹配到的整个字符串,而$1、$2等则表示匹配到的第1、2个捕获组。这两个特殊的符号,在matchAll函数中也可以使用:

let str = "Hello world, my name is John";
let regexp = /Hello\s(\w+)/g;
let results = Array.from(str.matchAll(regexp));

for (let match of results) {
  let newText = match[0].toUpperCase() + ', ' + $1.toLowerCase() + '!';
  console.log(newText); // "HELLO WORLD, my!"
}

上面的例子中,正则表达式匹配到了一些以'Hello '为开头的单词,并且将这些单词转换为了全大写,后面加上了一个感叹号。在替换字符串的过程中,使用$1引用了第一个捕获组。

五、使用flags属性获取正则表达式的标志

除了查询匹配结果,matchAll函数还可以查询使用的正则表达式的标志。使用flags属性即可:

let str = "123,456,789";
let regexp = /\d{3}/g;
let results = Array.from(str.matchAll(regexp));
console.log(regexp.flags); // "g"

上面的例子中,正则表达式使用了全局匹配标志g。在获取匹配结果之前,可以使用flags属性获取这个标志。

六、总结

由于全局匹配函数matchAll可以同时返回多个匹配结果,因此特别适用于需要对大量文本数据快速进行处理的场景。除了上述的一些特性之外,matchAll还拥有很多其他的方法来满足不同的需求。在实践中,开发者可以灵活配合使用这些方法,从而实现更加高效的文本处理。