XRegExp 5.1.1

[!提示] XRegExp 在当时对重度正则表达式用户来说是不可或缺的，但它的许多最佳功能已被现代 JavaScript 采用。看看 regex，这是 XRegExp 的轻量级精神继承者，再次将 JavaScript 正则表达式提升到了新的水平。

XRegExp 提供增强的（且可扩展的）JavaScript 正则表达式。您可以获得超越浏览器原生支持的现代语法和标志。XRegExp 还是一个正则表达式工具集，提供工具使您的搜索和解析更加轻松，同时让您摆脱正则表达式跨浏览器不一致性和其他烦恼。

XRegExp 支持 ES5+ 浏览器，您可以在 Node.js 中使用它或作为 RequireJS 模块使用。多年来，XRegExp 的许多功能已被新的 JavaScript 标准采用（命名捕获、Unicode 属性/脚本/类别、s 标志、粘性匹配等），因此使用 XRegExp 可以将这些功能扩展到较旧的浏览器中。

性能

XRegExp 编译为原生的 RegExp 对象。因此，使用 XRegExp 构建的正则表达式与原生正则表达式的性能完全相同。首次编译模式时会有极小的额外开销。

XRegExp 5 中命名捕获的重大变更

XRegExp 5 引入了一项重大变更，即命名反向引用属性现在出现在结果的 groups 对象上（遵循 ES2018），而不是直接出现在结果上。要恢复旧的处理方式，以避免更新旧代码，请在导入 XRegExp 后运行以下代码行：

XRegExp.uninstall('namespacing');

XRegExp 4.1.0 及更高版本允许在不升级到 XRegExp 5 的情况下引入新行为，只需运行 XRegExp.install('namespacing')。

以下是更新代码以适应新行为最常需要的更改：

// 将此代码
const name = XRegExp.exec(str, regexWithNamedCapture).name;

// 改为
const name = XRegExp.exec(str, regexWithNamedCapture).groups.name;

请参阅下文，了解更多使用 XRegExp.exec 和 XRegExp.replace 进行命名捕获的示例。

使用示例

// 使用命名捕获和 x 标志实现自由间距和行注释
const date = XRegExp(
`(?<year>  [0-9]{4} ) -?  # 年
(?<month> [0-9]{2} ) -?  # 月
(?<day>   [0-9]{2} )     # 日`, 'x');

// XRegExp.exec 在结果的 groups 属性上提供命名后向引用
let match = XRegExp.exec('2021-02-22', date);
match.groups.year; // -> '2021'

// 它还包括可选的 pos 和 sticky 参数
let pos = 3;
const result = [];
while (match = XRegExp.exec('<1><2><3>4<5>', /<(\d+)>/, pos, 'sticky')) {
result.push(match[1]);
pos = match.index + match[0].length;
}
// result -> ['2', '3']

// XRegExp.replace 允许在替换中使用命名后向引用
XRegExp.replace('2021-02-22', date, '$<month>/$<day>/$<year>');
// -> '02/22/2021'
XRegExp.replace('2021-02-22', date, (...args) => {
// 命名后向引用在最后一个参数中
const {day, month, year} = args.at(-1);
return `${month}/${day}/${year}`;
});
// -> '02/22/2021'

// XRegExp 编译为 RegExp 并可与原生方法一起使用
date.test('2021-02-22');
// -> true
// 但是，如果与原生方法一起使用，命名捕获必须使用编号后向引用
'2021-02-22'.replace(date, '$2/$3/$1');
// -> '02/22/2021'

// 使用 XRegExp.forEach 从字符串中提取每隔一个数字
const evens = [];
XRegExp.forEach('1a2345', /\d/, (match, i) => {
if (i % 2) evens.push(+match[0]);
});
// evens -> [2, 4]

// 使用 XRegExp.matchChain 获取 <b> 标签内的数字
XRegExp.matchChain('1 <b>2</b> 3 <B>4 \n 56</B>', [
XRegExp('<b>.*?</b>', 'is'),
/\d+/
]);
// -> ['2', '4', '56']

// 你还可以传递和返回特定的后向引用
const html =
`<a href="https://xregexp.com/">XRegExp</a>
<a href="https://www.google.com/">Google</a>`;
XRegExp.matchChain(html, [
{regex: /<a href="([^"]+)">/i, backref: 1},
{regex: XRegExp('(?i)^https?://(?<domain>[^/?#]+)'), backref: 'domain'}
]);
// -> ['xregexp.com', 'www.google.com']

// 合并字符串和正则表达式，并更新后向引用
XRegExp.union(['m+a*n', /(bear)\1/, /(pig)\1/], 'i', {conjunction: 'or'});
// -> /m\+a\*n|(bear)\1|(pig)\2/i

这些示例展示了可能的用法，但 XRegExp 还有更多未在此处显示的语法、标志、方法、选项和浏览器修复。你还可以使用插件（见下文）扩展 XRegExp 的正则表达式语法，或者编写自己的插件。详情请访问 xregexp.com。

附加组件

你可以单独加载附加组件，或者通过从 https://unpkg.com/xregexp/xregexp-all.js 加载 xregexp-all.js 来捆绑所有 XRegExp 的附加组件。

Unicode

如果不使用 xregexp-all.js，请先包含 Unicode 基础脚本，然后包含一个或多个用于 Unicode 类别、属性或脚本的附加组件。

然后你可以这样做：

// 测试一些 Unicode 脚本
// 也可以使用 Script= 前缀来匹配 ES2018：\p{Script=Hiragana}
XRegExp('^\\p{Hiragana}+$').test('ひらがな'); // -> true
XRegExp('^[\\p{Latin}\\p{Common}]+$').test('Über Café.'); // -> true

// 测试 Unicode 类别字母和标记
// 也可以使用简称 \p{L} 和 \p{M}
const unicodeWord = XRegExp.tag()`^\p{Letter}[\p{Letter}\p{Mark}]*$`;
unicodeWord.test('Русский'); // -> true
unicodeWord.test('日本語'); // -> true
unicodeWord.test('العربية'); // -> true

默认情况下，\p{…} 和 \P{…} 支持基本多文种平面（即代码点最高到 U+FFFF）。你可以通过使用 A 标志在每个正则表达式的基础上选择支持完整的 21 位 Unicode（代码点最高到 U+10FFFF）。这被称为星体模式。你可以通过运行 XRegExp.install('astral') 来为所有新的正则表达式自动添加 A 标志。在星体模式下，\p{…} 和 \P{…} 始终匹配完整的代码点而不是代码单元，对于 U+FFFF 以上的代码点使用代理对。

// 使用 A 标志匹配星体代码点
XRegExp('^\\p{S}$').test('💩'); // -> false
XRegExp('^\\p{S}$', 'A').test('💩'); // -> true
// 使用代理对 U+D83D U+DCA9 表示 U+1F4A9（粪便堆）
XRegExp('^\\p{S}$', 'A').test('\uD83D\uDCA9'); // -> true

// 隐式 A 标志
XRegExp.install('astral');
XRegExp('^\\p{S}$').test('💩'); // -> true

选择星体模式会禁用在字符类中使用 \p{…} 和 \P{…}。在星体模式下，请使用如 (\pL|[0-9_])+ 而不是 [\pL0-9_]+。

XRegExp 使用 Unicode 14.0.0。

XRegExp.build

使用命名子模式构建正则表达式，以提高可读性和模式重用：

const time = XRegExp.build('(?x)^ {{hours}} ({{minutes}}) $', {
    hours: XRegExp.build('{{h12}} : | {{h24}}', {
        h12: /1[0-2]|0?[1-9]/,
        h24: /2[0-3]|[01][0-9]/
    }),
    minutes: /^[0-5][0-9]$/
});

time.test('10:59'); // -> true
XRegExp.exec('10:59', time).groups.minutes; // -> '59'

命名子模式可以以字符串或正则表达式对象的形式提供。如果同时存在开头的 ^ 和结尾的未转义 $，则会从子模式中删除它们，这允许嵌入独立有用的锚定模式。{{…}} 标记可以作为单个单元进行量化。外部模式或提供的子模式中的任何反向引用都会自动重新编号，以在更大的组合模式中正确工作。语法 ({{name}}) 作为通过 (?<name>{{name}}) 进行命名捕获的简写。命名子模式不能嵌入在字符类中。

XRegExp.tag（包含在 XRegExp.build 中）

提供带标签的模板字面量，用于创建具有 XRegExp 语法和标志的正则表达式：

XRegExp.tag()`\b\w+\b`.test('word'); // -> true

const hours = /1[0-2]|0?[1-9]/;
const minutes = /(?<minutes>[0-5][0-9])/;
const time = XRegExp.tag('x')`\b ${hours} : ${minutes} \b`;
time.test('10:59'); // -> true
XRegExp.exec('10:59', time).groups.minutes; // -> '59'

const backref1 = /(a)\1/;
const backref2 = /(b)\1/;
XRegExp.tag()`${backref1}${backref2}`.test('aabb'); // -> true

XRegExp.tag 不仅仅是插值。你可以使用所有的 XRegExp 语法和标志，并且由于它将模式读取为原始字符串，你不再需要转义所有的反斜杠。XRegExp.tag 还在底层使用 XRegExp.build，所以你可以免费获得它的所有额外功能。如果同时存在开头的 ^ 和结尾的未转义 $，则会从插值模式中删除它们（以允许嵌入独立有用的锚定正则表达式），在字符类中插值是一个错误（以避免边缘情况中的意外含义），插值模式在量化时被视为原子单元，插值字符串中的特殊字符会被转义，插值正则表达式中的任何反向引用都会被重写以在整体模式中工作。

XRegExp.matchRecursive

一个强大而灵活的 API，用于使用 XRegExp 模式字符串作为左右分隔符来匹配递归结构：

const str1 = '(t((e))s)t()(ing)';
XRegExp.matchRecursive(str1, '\\(', '\\)', 'g');
// -> ['t((e))s', '', 'ing']

// 带有 valueNames 的扩展信息模式
const str2 = 'Here is <div> <div>an</div></div> example';
XRegExp.matchRecursive(str2, '<div\\s*>', '</div>', 'gi', {
    valueNames: ['between', 'left', 'match', 'right']
});
/* -> [
    {name: 'between', value: 'Here is ',       start: 0,  end: 8},
    {name: 'left',    value: '<div>',          start: 8,  end: 13},
    {name: 'match',   value: ' <div>an</div>', start: 13, end: 27},
    {name: 'right',   value: '</div>',         start: 27, end: 33},
    {name: 'between', value: ' example',       start: 33, end: 41}
] */

// 使用 null valueNames 省略不需要的部分，并使用 escapeChar
const str3 = '...{1}.\\{{function(x,y){return {y:x}}}';
XRegExp.matchRecursive(str3, '{', '}', 'g', {
    valueNames: ['literal', null, 'value', null],
    escapeChar: '\\'
});
/* -> [
    {name: 'literal', value: '...',  start: 0, end: 3},
    {name: 'value',   value: '1',    start: 4, end: 5},
    {name: 'literal', value: '.\\{', start: 6, end: 9},
    {name: 'value',   value: 'function(x,y){return {y:x}}', start: 10, end: 37}
] */

// 通过 y 标志使用粘性模式
const str4 = '<1><<<2>>><3>4<5>';
XRegExp.matchRecursive(str4, '<', '>', 'gy');
// -> ['1', '<<2>>', '3']

// 跳过不平衡的分隔符而不是报错
const str5 = 'Here is <div> <div>an</div> unbalanced example';
XRegExp.matchRecursive(str5, '<div\\s*>', '</div>', 'gi', {
    unbalanced: 'skip'
});
// -> ['an']

默认情况下，如果 XRegExp.matchRecursive 在目标字符串中扫描到不平衡的分隔符，它会抛出一个错误。有多种可选的方法来处理不平衡的分隔符。

安装和使用

在浏览器中（将XRegExp与其所有附加组件捆绑使用）：

<script src="https://unpkg.com/xregexp/xregexp-all.js"></script>

使用 npm：

npm install xregexp

在 Node.js 中：

const XRegExp = require('xregexp');