当前位置：首页 > ai >正文

Python入门手册：正则表达式的学习

ai 2025/8/18 11:36:27

正则表达式的学习

在编程的世界里，正则表达式就像是一串神秘的“魔法咒语”，它能够帮助我们轻松地处理各种复杂的文本数据。无论你是初出茅庐的编程新手，还是经验丰富的技术大牛，掌握正则表达式都能让你在文本处理任务中如鱼得水。今天，就让我们一起走进正则表达式的奇妙世界，先从它的基本概念和语法讲起，然后再通过一些实战例子，解锁它的强大功能吧！

一、正则表达式是什么

正则表达式（Regular Expression）是一种用于匹配字符串中字符组合的模式。它使用一系列特殊的字符和符号来定义文本的匹配规则。比如，如果你想从一篇长文中找出所有的电子邮件地址，或者替换掉文本中的某些特定格式的日期，正则表达式都能帮你轻松搞定。

二、正则表达式的基本语法

在开始实战之前，我们先来了解一下正则表达式中一些常用的基本语法和特殊字符。

1. 字符类

.：匹配任意单个字符（除了换行符）。
- 例如：a.b可以匹配a1b、a2b、a b等。
\d：匹配任意一个数字（0-9）。
- 例如：\d\d\d可以匹配123、456等。
\w：匹配任意一个字母、数字或下划线（等价于[a-zA-Z0-9_]）。
- 例如：\w\w\w可以匹配abc、123、a1_等。
\s：匹配任意一个空白字符（空格、制表符、换行符等）。
- 例如：\s\s\s可以匹配三个连续的空格。

2. 边界匹配

^：匹配字符串的开头。
- 例如：^abc可以匹配以abc开头的字符串。
$：匹配字符串的结尾。
- 例如：abc$可以匹配以abc结尾的字符串。

3. 量词

*：匹配前面的字符0次或多次。
- 例如：a*可以匹配a、aa、aaa，也可以匹配空字符串。
+：匹配前面的字符1次或多次。
- 例如：a+可以匹配a、aa、aaa，但不能匹配空字符串。
?：匹配前面的字符0次或1次。
- 例如：a?可以匹配a或空字符串。
{n}：匹配前面的字符恰好n次。
- 例如：a{3}可以匹配aaa。
{n,}：匹配前面的字符至少n次。
- 例如：a{3,}可以匹配aaa、aaaa等。
{n,m}：匹配前面的字符至少n次，最多m次。
- 例如：a{3,5}可以匹配aaa、aaaa、aaaaa。

4. 分组和捕获

()：用于分组和捕获匹配的内容。
- 例如：(\d{4})-(\d{2})-(\d{2})可以匹配2024-05-21，并捕获2024、05、21。
|：表示“或”的关系。
- 例如：cat|dog可以匹配cat或dog。

三、Python中的正则表达式模块

在Python中，我们主要通过re模块来使用正则表达式。这个模块提供了丰富的函数和方法，让我们可以方便地进行文本匹配、查找、替换等操作。在开始实战之前，我们先来了解一下re模块中几个常用的函数。

1. `re.search()`

这个函数用于在字符串中搜索匹配正则表达式的第一个位置。如果找到了匹配的内容，它会返回一个匹配对象；如果没有找到，就返回None。例如：

import retext = "Hello, my email is example@example.com."
pattern = r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b"  # 匹配电子邮件的正则表达式
match = re.search(pattern, text)
if match:print("找到匹配的电子邮件：", match.group())
else:print("没有找到匹配的电子邮件")

在这个例子中，我们定义了一个正则表达式来匹配电子邮件地址。\b表示单词边界，[A-Za-z0-9._%+-]+匹配电子邮件用户名部分，@是电子邮件的固定符号，[A-Za-z0-9.-]+匹配域名部分，\.[A-Z|a-z]{2,}匹配顶级域名。re.search()函数会在文本中搜索第一个匹配的电子邮件地址，并将其作为匹配对象返回。

2. `re.findall()`

如果想找出文本中所有匹配正则表达式的内容，re.findall()函数就派上用场了。它会返回一个列表，包含所有匹配的结果。比如：

text = "This is a test string with 123 numbers and 456 letters."
pattern = r"\d+"  # 匹配数字的正则表达式
matches = re.findall(pattern, text)
print("找到的数字有：", matches)

这里，\d+表示匹配一个或多个数字。re.findall()会把文本中所有匹配的数字找出来，存到一个列表中返回。

3. `re.sub()`

当我们需要对文本中的某些内容进行替换时，re.sub()函数就显得非常实用了。它可以根据正则表达式找到匹配的内容，并将其替换为指定的字符串。例如：

text = "The price is $100 and the discount is 20%."
pattern = r"\d+"  # 匹配数字的正则表达式
replacement = "XXX"
new_text = re.sub(pattern, replacement, text)
print("替换后的文本：", new_text)

在这个例子中，我们将文本中所有的数字替换为了字符串"XXX"。

四、实战案例：提取网页中的链接

在日常的开发工作中，我们经常会遇到需要从网页中提取信息的情况。比如，提取网页中的所有链接。假设我们有以下一段HTML代码：

<a href="https://www.example.com">Example</a>
<a href="https://www.google.com">Google</a>
<a href="https://www.bing.com">Bing</a>

我们可以通过正则表达式来提取其中的链接。正则表达式如下：

import rehtml = """
<a href="https://www.example.com">Example</a>
<a href="https://www.google.com">Google</a>
<a href="https://www.bing.com">Bing</a>
"""
pattern = r'href="([^"]+)"'  # 匹配链接的正则表达式
links = re.findall(pattern, html)
print("提取到的链接有：", links)

这里，href="([^"]+)"是一个正则表达式，href="表示匹配href="这部分内容，([^"]+)是一个捕获组，用来匹配href="和"之间的任意字符（不包括双引号），"表示匹配最后的双引号。re.findall()会把所有匹配的链接找出来，存到一个列表中返回。

五、实战案例：验证用户输入的手机号码

在很多应用中，我们需要验证用户输入的手机号码是否符合正确的格式。假设我们规定手机号码的格式为：以1开头，第二位数字是3到9中的一个，后面跟着9位数字。我们可以用正则表达式来实现这个验证功能。代码如下：

import redef validate_phone_number(phone_number):pattern = r"^1[3-9]\d{9}$"  # 匹配手机号码的正则表达式if re.match(pattern, phone_number):return Trueelse:return Falsephone_number = "13812345678"
if validate_phone_number(phone_number):print("手机号码格式正确")
else:print("手机号码格式错误")