正则表达式完全指南：从入门到精通

什么是正则表达式？

正则表达式（Regular Expression，简称 Regex）是一种用于匹配字符串模式的强大工具。它就像是文本世界的"搜索引擎"，能够精确描述你要寻找的内容模式。无论是简单的查找替换，还是复杂的数据提取和验证，正则表达式都是不可或缺的利器。

学习正则表达式可能一开始会觉得晦涩难懂，但一旦掌握，你会发现它能极大提升文本处理效率。本指南将从基础开始，逐步深入到高级应用，帮助你成为正则表达式高手。

基础语法：字符匹配

普通字符

最简单的正则表达式就是普通字符本身。例如，正则表达式 hello 会匹配字符串中的 "hello"。这是最基础的匹配方式，也是理解正则表达式的起点。

元字符

正则表达式的真正威力来自元字符。这些特殊字符具有特殊含义：

. - 匹配任意单个字符（除换行符）
* - 匹配前面的字符零次或多次
+ - 匹配前面的字符一次或多次
? - 匹配前面的字符零次或一次
^ - 匹配字符串开头
$ - 匹配字符串结尾
| - 或运算符，匹配左边或右边的模式
[] - 字符集，匹配集合中的任意一个字符
() - 分组，将多个字符作为一个单元

字符类与范围

字符类是正则表达式中最常用的功能之一。通过方括号 [] 定义字符集合：

[abc] - 匹配 a、b 或 c 中的任意一个字符
[a-z] - 匹配任意小写字母
[A-Z] - 匹配任意大写字母
[0-9] - 匹配任意数字
[a-zA-Z0-9] - 匹配任意字母或数字
[^abc] - 匹配除 a、b、c 之外的任意字符

预定义字符类

为了简化书写，正则表达式提供了一些预定义的字符类：

\d - 匹配任意数字，等同于 [0-9]
\D - 匹配任意非数字字符
\w - 匹配字母、数字或下划线，等同于 [a-zA-Z0-9_]
\W - 匹配非字母、数字或下划线的字符
\s - 匹配任意空白字符（空格、制表符、换行符等）
\S - 匹配任意非空白字符

量词：控制匹配次数

量词用于指定前面的字符或分组应该匹配多少次：

{n} - 精确匹配 n 次
{n,} - 至少匹配 n 次
{n,m} - 匹配 n 到 m 次
* - 等同于 {0,}，匹配零次或多次
+ - 等同于 {1,}，匹配一次或多次
? - 等同于 {0,1}，匹配零次或一次

贪婪匹配与非贪婪匹配

默认情况下，量词是"贪婪"的，会尽可能多地匹配字符。在量词后添加 ? 可以变为"非贪婪"模式，尽可能少地匹配：

贪婪：.* 匹配 "abc123xyz" → abc123xyz（尽可能多）

非贪婪：.*? 匹配 "abc123xyz" → a（尽可能少）

实战案例：常见应用场景

1. 验证邮箱地址

正则表达式：^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$

解释：匹配标准邮箱格式，包含用户名、@ 符号、域名和顶级域名

✓ [email protected]

2. 提取手机号码

正则表达式：1[3-9]\d{9}

解释：匹配中国大陆11位手机号，以1开头，第二位是3-9，后面跟9位数字

✓ 13812345678

✓ 19987654321

3. 匹配IP地址

正则表达式：\b(?:\d{1,3}\.){3}\d{1,3}\b

解释：匹配IPv4地址格式（简化版）

✓ 192.168.1.1

✓ 10.0.0.1

4. 提取URL链接

正则表达式：https?://[^\s]+

解释：匹配http或https开头的URL

✓ https://www.example.com

✓ http://blog.example.com/post/123

5. 密码强度验证

正则表达式：^(?=.*[a-z])(?=.*[A-Z])(?=.*\d)[a-zA-Z\d]{8,}$

解释：至少8位，包含大小写字母和数字

✓ Password123

✗ password (缺少大写和数字)

高级技巧：分组与反向引用

分组不仅可以将多个字符作为一个整体，还能捕获匹配的内容供后续使用：

捕获分组：(pattern)

非捕获分组：(?:pattern)

反向引用：\1, \2, ... 引用前面的捕获分组

实例：查找重复单词

正则表达式：\b(\w+)\s+\1\b

解释：\1 引用第一个捕获分组，匹配连续重复的单词

匹配："the the" 中的重复

前瞻与后顾

前瞻和后顾断言允许你匹配某个位置，而不消费字符：

(?=pattern) - 正向前瞻，匹配后面是 pattern 的位置
(?!pattern) - 负向前瞻，匹配后面不是 pattern 的位置
(?<=pattern) - 正向后顾，匹配前面是 pattern 的位置
(?<!pattern) - 负向后顾，匹配前面不是 pattern 的位置

实例：提取价格数字（不含货币符号）

正则表达式：(?<=\$)\d+(?:\.\d{2})?

在 "$99.99" 中匹配 "99.99"，不包含 $

常见陷阱与注意事项

⚠️ 转义特殊字符

如果要匹配 . * + ? 等元字符本身，需要用反斜杠转义：\. \* \+ \?

⚠️ 贪婪匹配的陷阱

使用 .* 时要注意，它会匹配尽可能多的字符，可能导致意外结果。考虑使用 .*? 或更精确的模式。

⚠️ 性能问题

复杂的正则表达式可能导致性能问题，特别是包含多重嵌套和回溯时。尽量保持正则简洁明了。

学习建议与练习方法

学习正则表达式最好的方法是实践。以下是一些建议：

📝

从简单开始

先掌握基本的字符匹配和量词，不要一开始就尝试复杂的表达式。

🔍

使用在线测试工具

利用 regex101.com 等在线工具实时测试和调试正则表达式。

💡

阅读实际案例

分析开源项目中的正则表达式用法，学习最佳实践。

🎯

解决实际问题

在工作中遇到文本处理任务时，尝试用正则表达式解决。

总结

正则表达式是文本处理的利器，掌握它需要时间和实践。从基础的字符匹配到高级的分组和断言，每个概念都建立在前面的基础上。不要被复杂的语法吓倒，循序渐进地学习，结合实际应用场景练习。

记住，正则表达式的目标是简洁而准确地描述模式。写出的正则表达式应该既能完成任务，又容易理解和维护。随着经验的积累，你会发现正则表达式成为日常工作中不可或缺的工具。

开始你的正则表达式之旅吧，每一次练习都会让你离精通更近一步！

🔗 实践工具

在 TextTool 的批量查找替换功能中，勾选"正则"选项即可使用正则表达式进行高级文本处理。完全免费，隐私安全。