python模块 -- re正则表达式模块详解-CFANZ编程社区

re模块

1) regex = re.compile(pattern, flags=0)

功能：产生正则表达式对象
参数：
- pattern 正则表达式
- flags 功能标志位，扩展正则表达式的匹配
  - A==ASCII：元字符只能匹配ascii码
  - I==IGNORECAE：匹配忽略字母大小写
  - S==DOTALL ：使.可以匹配换行
  - M==MULTLINE ：使^$可以匹配每一行的开头结尾位置
  - X==VERBOSE ：为正则添加注释
返回值：正则表达式对象
用法： regex.findall(string, pos, endpos)

2） regex.findall(string, pos, endpos）

功能：根据正则表达式匹配目标字符串内容
参数：string 目标字符串 pos 截取目标字符串的开始匹配位置 endpos 截取目标字符串的结束匹配位置
返回值：匹配到的内容列表，如果正则表达式有子组则只能获取到子组对应的内容

>>> string="LiLei:1984,HanMeimei:1985"
>>> pattern=r"\w+:\d+"
>>> regex=re.compile(pattern)
>>> regex.findall(string)
['LiLei:1984', 'HanMeimei:1985']
>>>

3） re.findall(pattern, string, flags=0)

功能：根据正则表达式匹配目标字符串内容
参数：pattern 正则表达式 string 目标字符串 flags 功能标志位，扩展正则表达式的匹配
返回值：匹配到的内容列表，如果正则表达式有子组则只能获取到子组对应的内容

>>> string="LiLei:1984,HanMeimei:1985"
>>> pattern=r"\w+:\d+"
>>> lst=re.findall(pattern,string)
>>> print(lst)
['LiLei:1984', 'HanMeimei:1985']

4）re.split(pattern, string, flags=0)

功能：使用正则表达式匹配内容，切割目标字符串
参数：pattern 正则表达式 string 目标字符串 flags 功能标志位，扩展正则表达式的匹配
返回值：切割后的内容列表

>>> string="hello world,everyone!"
>>> re.split(r"[ ,!]",string)        # 根据正则表达式中指定的符号进行字符串分割
['hello', 'world', 'everyone', '']
>>>

5） re.sub(pattern, replace, string, max, flags = 0)

功能：使用一个字符串替换正则表达式匹配到的内容
参数：pattern 正则表达式 replace 替换的字符串 string 目标字符串 max 最多替换几处，默认替换全部
flags 功能标志位，扩展正则表达式的匹配
返回值：替换后的字符串

>>> string="LiLei:1984,HanMeimei:1985"
>>> s=re.sub(r":",'-',string)
>>> print(s)
LiLei-1984,HanMeimei-1985

6） re.finditer(pattern, string, flags = 0)

功能：根据正则表达式匹配目标字符串内容
参数：pattern 正则表达式 string 目标字符串 flags 功能标志位，扩展正则表达式的匹配
返回值：匹配结果的迭代器

>>> string='abc 123 a456 789b 666'
>>> iter=re.finditer(r"\b\d+\b",string)
>>> for ma in iter:
...     print(ma.group())
...
123
666
>>>

7） re.fullmatch(pattern, string, flags=0)

功能：完全匹配某个目标字符串
参数： pattern 正则表达式 string 目标字符串
返回值：匹配内容match对象

8) re.match(pattern, string, flags=0)

功能：匹配某个目标字符串开始位置
参数：pattern正则表达式 string 目标字符串
返回值：匹配内容的match对象

>>> string="Hello World 123!"
>>> ma=re.match(r"\w+",string)
>>> if ma:
...     print(ma.group())
...
Hello
>>> ma=re.match(r"\d+",string)
>>> if ma:
...     print(ma.group())
...
>>>

9）re.search(pattern, string, flags=0)

功能：匹配目标字符串中第一个符合内容
参数：pattern 正则表达式 string目标字符串
返回值：匹配内容的match对象

>>> string="Hello World 123!"
>>> ma=re.search(r"\w+",string)
>>> if ma:
...     print(ma.group())
...
Hello
>>> ma=re.search(r"\d+", string)
>>> if ma:
...     print(ma.group())
...
123
>>>

match对象的属性方法

1）属性变量

pos：匹配的目标字符串开始位置
endpos：匹配的目标字符串结束位置
re：正则表达式
string：目标字符串
lastgroup：最后一组的名称
lastindex：最后一组的序号

2) 属性方法

span()：获取匹配内容的起止位置。
start()：获取匹配内容起始位置。
end()：获取匹配内容的结束位置。
groupdict()：获取捕获组字段，组名为键，匹配的内容为值
groups()：字符对应内容元组
group(n=0)：获取match对象匹配的内容参数：默认为0表示获取整个match对象的内容。如果是序列号或者是组名，表示获取对应自组内容。

>>> string="Name:HanMeimei"
>>> ret=re.search(r"(\w+):(?P<name>\w+)",string)
>>> ret
<_sre.SRE_Match object; span=(0, 14), match='Name:HanMeimei'>
>>> ret.pos
0
>>> ret.endpos
14
>>> ret.re
re.compile('(\\w+):(?P<name>\\w+)')
>>> ret.string
'Name:HanMeimei'
>>> ret.lastgroup
'name'
>>> ret.lastindex
2
>>> ret.span()
(0, 14)
>>> ret.start()
0
>>> ret.end()
14
>>> ret.groupdict()
{'name': 'HanMeimei'}
>>> ret.groups()
('Name', 'HanMeimei')
>>> ret.group()
'Name:HanMeimei'
>>> ret.group(1)
'Name'
>>> ret.group(2)
'HanMeimei'
>>>

元字符

1）普通字符

匹配规则：每个普通字符匹配其对应的字符。
用法：re.findall(正则表达式，被匹配的表达式)

>>> import re
>>> re.findall('ab','abcdefgabcdefg')
['ab', 'ab']
>>>

2）或关系：

元字符：|
匹配规则：匹配|两侧任意的正则表达式

>>> string="www.baidu.com/www.xrd.cn"
>>> re.findall("com|cn",string)
['com', 'cn']
>>>

3）匹配单个字符

元字符：.
匹配规则：匹配除换行符外的任意字符

>>> string="dig dug duck dag"
>>> re.findall("d.g",string)
['dig', 'dug', 'dag']
>>>

4） 匹配字符集

元字符集：[字符集]
匹配规则：匹配字符集中的任意一个字符
表达式：[0-9] [a-z] [A-Z]匹配[]中的任意一个字符

>>> string="dig dug duck dag"
>>> re.findall("d[aci]g",string)
['dig', 'dag']
>>>

5）匹配字符集反集

元字符：[^字符集]
匹配规则：匹配除了字符集以外的任意一个字符

>>> string="dig dug duck dag"
>>> re.findall("d[^ai]g",string)
['dug']
>>>

匹配字符串开始位置

元字符：^
匹配规则：匹配目标字符串的开始位置

>>> string="hello world!"   # 字符串以h开头
>>> re.findall("^.",string)
['h']
>>>

匹配字符串结尾

元字符：$
匹配规则：匹配目标字符串的结束位置

>>> string="hello world!"   # 以！结尾的字符串
>>> re.findall(".$",string)
['!']
>>>

匹配字符重复

元字符：*
匹配规则：匹配前面的字符出现0次或多次

>>> string="ab aob aoob aooob axb"
>>> re.findall("ao*b",string)
['ab', 'aob', 'aoob', 'aooob']
>>>

元字符：+
匹配规则：匹配前面的字符出现1次或多次

>>> string="ab aob aoob aooob axb"
>>> re.findall("ao+b",string)
['aob', 'aoob', 'aooob']
>>>

元字符：?
匹配规则：匹配前面的字符出现0次或1次

>>> string="ab aob aoob aooob axb"
>>> re.findall("ao?b",string)
['ab', 'aob']
>>>

元字符：{n}
匹配规则：匹配前面的字符出现n次

>>> string="ab aob aoob aooob axb"
>>> re.findall("ao{2}b",string)
['aoob']

元字符：{m,n}
匹配规则：匹配前面的字符出现m到n次

>>> string="ab aob aoob aooob aoooob aooooob"
>>> re.findall("ao{2,4}b",string)
['aoob', 'aooob', 'aoooob']

匹配任意(非)数字字符

元字符：\d \D
匹配规则：\d匹配任意数字字符 \D匹配任意非数字字符

>>> string="123%c45x+z"
>>> re.findall("\d{2,3}",string)  # 匹配两位或三位的数字字符串
['123', '45']
>>> re.findall("\D{2,3}",string)  # 匹配两位或三位非数字组成的字符串
['%c', 'x+z']
>>>

匹配任意(非)普通字符

元字符：\w \W
匹配规则：\w 匹配普通字符，\W匹配普通字符
说明：普通字符指数字、字母和下划线

>>> string="http port = 80"
>>> re.findall("\w+",string)   # 匹配普通字符
['http', 'port', '80']
>>> re.findall("\W+",string)   # 匹配非普通字符
[' ', ' = ']

匹配任意(非)空字符

元字符：\s \S
匹配规则：\s匹配空字符 \S匹配非空字符
说明：空字符指空格 \r \n \t \v \f字符

>>> string="hello          world"
>>> re.findall('\s+',string)
['          ']
>>> re.findall('\S+',string)
['hello', 'world']
>>>

匹配开头结束位置

元字符：\A \Z
匹配规则：\A表示开头位置 \Z匹配结束位置

>>> string = "abc xyz 123"
>>> re.findall('\A.',string)  # 匹配字符串开头第一个字符
['a']
>>> re.findall('.\Z',string)  # 匹配字符串末尾最后一个字符
['3']
>>>

匹配(非)字符单词的边界位置

元字符：\b \B
匹配规则：\b表示单词边界 \B表示非单词边界
说明：单词边界指数字字母(汉字)下划线与其它字符的交界位置。

>>> string="There are two dogs123 456!"
>>> re.findall(r"\b\w+\b",string)
['There', 'are', 'two', 'dogs123', '456']
>>> re.findall(r"\B\d+\b",string)
['123', '56']
>>>

贪婪模式和非贪婪模式

贪婪模式：默认情况下，匹配重复的元字符总是尽可能多的向后匹配内容。
非贪婪模式：让匹配重复的元字符尽可能少的向后匹配内容
贪婪模式转为非贪婪模式：在匹配重复元字符后加'?'号即可

捕获组：

格式：?P<name>pattern
name：指定搜索正则表达式的名称
pattern：正则表达式字符串

>>> string='abc123xyz456'
>>> re.search(r"(?P<digital>\d+)",string).group('digital')
'123'
>>>

练习：

1、匹配一个邮箱

>>> string="abc123@163.com Xyz456@sina.cn 12edf@gv.org abc#163.com 123@xxx"
>>> re.findall(r'[\w\d]+@[\w\d]+\.[\w\d]+',string)
['abc123@163.com', 'Xyz456@sina.cn', '12edf@gv.org']

2、匹配一个数值，正数、负数、整数、小数、分数、百分数

>>> string="12 ab 34.12 1/2 xy12 12ab 50.0% -10"
>>> re.findall(r'-?\d+[\./]?\d+%?',string)
['12', '34.12', '1/2', '12', '12', '50.0%', '-10']
>>>