正则表达式:Python 模块 re 简介

正则表达式简介
正则表达式(RegExp)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(元字符)。
为了使文章更具可读性,本文将正则表达式冗长的 语法介绍 放在了文章的末尾。
运算符的优先级
正则表达式运算符的优先级顺序由高到低依次为:
转义符:\
括号和中括号:(),(?:),(?=), []
限定符:*,+,?,{n},{n,},{n,m}
定位点和序列:^,$,\元字符,字符
替换:|
字符具有高于替换运算符的优先级,使得 m|food 匹配 m 或 food。若要匹配 mood 或 food,请使用括号创建子表达式,即 (m|f)ood。
Raw String
正则表达式使用反斜杠 \ 来代表特殊形式或用作转义字符,这里跟 Python 的语法冲突,因此,Python 只好用 \\\\ 匹配 \,因为正则表达式中如果要匹配 \,需要用 \ 来转义,变成 \\,而 Python 语法中又需要对字符串中每一个 \ 进行转义,所以就变成了 \\\\。
为了使正则表达式具有更好的可读性,Python 特别设计了 Raw String。Raw String 以 r 作为字符串的前缀,如 r”\n” 表示字符 \ 和 n。
并非所有的正则表达式都需要使用 Raw String,但 compile 方法必须以 r 作为字符串的前缀;
对于其他方法(如 match、search 等 )而言,是否以 r 作为字符串的前缀并不影响结果。
re 模块简介
re 模块提供了 Perl 风格的正则表达式模式。Perl 5 对标准正则表达式增加了几个附加功能,re 模块也支持其中的大部分。

正则表达式对象

compile(RegExp [, flags]) 可以把正则表达式编译成一个正则表达式对象。其中,RegExp 为正则表达式,flags 为编译标志。
[cc lang=”python”]
import re
html = re.compile(r”<\s*(\S+)(\s[^>]*)?>[\s\S]*<\s*/\1\s*>“) # 匹配 HTML 标记(1)
[/cc]
编译标志
编译标志控制表达式的匹配方式。多个标志可以通过 | 来指定,如 re.I | re.M 被设置成 I 和 M 标志。
标志 含义
S 或 DOTALL 使 . 匹配包括换行在内的所有字符
I 或 IGNORECASE 使匹配对大小写不敏感
L 或 LOCALE 做本地化识别匹配
M 或 MULTILINE 多行匹配,影响 ^ 和 $
X 或 VERBOSE 提高正则表达式的可读性
X 标志的作用:
不在字符集中的空白字符将被忽略。这使得:dog | cat 和可读性差的 dog|cat 相同,但 [a b] 将匹配字符 a、b 或空格。
可以把注释放到正则表达式当中。注释从 # 开始到行末结束。
[cc lang=”python”]
Xhtml = re.compile(r”’# 匹配 HTML 标记(2)
<\s*(\S+)(\s[^>]*)?> # 开始标签
[\s\S]* # 标签内的文本
<\s*/\1\s*> # 同名结束标签
”’, re.X) # 同样匹配 HTML 标记,方法(2)的可读性比(1)高了很多。
[/cc]
执行匹配
方法 用途
match(RegExp, string [, flags]) 从字符串的开始匹配一个模式,成功则返回 MatchObject 实例,否则返回 None
search(RegExp, string [, flags]) 在整个字符串内查找模式匹配,成功则返回 MatchObject 实例,否则返回 None
findall(RegExp, string [, flags]) 获取所有匹配的子串,并把它们作为一个列表返回
finditer(RegExp, string [, flags]) 获取所有匹配的子串,并把它们作为一个迭代器返回
若已将正则表达式 RegExp 编译成了正则表达式对象 RegPat,还可以使用 RegPat.match(string) 执行匹配。
[cc lang=”python”]
string = ”’Hello World!

”’
match_1 = re.match(“\s\S*”,string)
match_2 = re.match(“\S*”,string)
search_1 = re.search(“\s\S*”,string)
search_2 = Xhtml.search(string)
print(match_1, “\n”, match_2, end = “\n————-\n “)
print(search_1, “\n”, search_2)
[/cc]
Output:
[cc lang=”python”]
None
<_sre.SRE_Match object; span=(0, 5), match='Hello'>
————-
<_sre.SRE_Match object; span=(5, 12), match=' World!'>
<_sre.SRE_Match object; span=(13, 99), match='

Leave a Reply