小工具      在线工具  汉语词典  css  js  c++  java

python 正则表达式

Python 额外说明

收录于:93天前

转载自:http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/00143193331387014ccd1040c814dee8b2164bb4f064cff000

字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在。比如判断一个字符串是否是合法的Email地址,虽然可以编程提取@前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦,而且代码难以复用。

正则表达式是匹配字符串的有力武器。它的设计思想是用描述性语言来定义字符串的规则。任何与规则匹配的字符串都被视为“匹配”。否则,该字符串是非法的。

那么我们判断一个字符串是否是合法邮件的方式是:

  1. 创建匹配Email的正则表达式;

  2. 使用这个正则表达式来匹配用户输入,判断是否合法。

因为正则表达式也是用字符串来表示的,所以我们首先要了解如何使用字符来描述字符。

在正则表达式中,如果直接给出字符,就是精确匹配。用\d可以匹配一个数字,\w可以匹配一个字母或数字,所以:

  • '00\d'可以匹配'007',但无法匹配'00A'

  • '\d\d\d'可以匹配'010'

  • '\w\w\d'可以匹配'py3'

.可以匹配任意字符,所以:

  • 'py.'可以匹配'pyc''pyo''py!'等等。

要匹配变长的字符,在正则表达式中,用*表示任意个字符(包括0个),用+表示至少一个字符,用?表示0个或1个字符,用{n}表示n个字符,用{n,m}表示n-m个字符:

来看一个复杂的例子:\d{3}\s+\d{3,8}

我们从左到右读一下:

  1. \d{3}表示匹配3个数字,例如'010'

  2. \s可以匹配一个空格(也包括Tab等空白符),所以\s+表示至少有一个空格,例如匹配' '' '等;

  3. \d{3,8}表示3-8个数字,例如'1234567'

综合起来,上面的正则表达式可以匹配由任意数量的空格分隔的电话号码和区号。

如果要匹配'010-12345'这样的号码呢?由于'-'是特殊字符,在正则表达式中,要用'\'转义,所以,上面的正则是\d{3}\-\d{3,8}

但是,仍然无法匹配'010 - 12345',因为带有空格。所以我们需要更复杂的匹配方式。

先进的

要做更精确地匹配,可以用[]表示范围,比如:

  • [0-9a-zA-Z\_]可以匹配一个数字、字母或者下划线;

  • [0-9a-zA-Z\_]+可以匹配至少由一个数字、字母或者下划线组成的字符串,比如'a100''0_Z''Py3000'等等;

  • [a-zA-Z\_][0-9a-zA-Z\_]*可以匹配由字母或下划线开头,后接任意个由一个数字、字母或者下划线组成的字符串,也就是Python合法的变量;

  • [a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更精确地限制了变量的长度是1-20个字符(前面1个字符+后面最多19个字符)。

A|B可以匹配A或B,所以(P|p)ython可以匹配'Python'或者'python'

^表示行的开头,^\d表示必须以数字开头。

$表示行的结束,\d$表示必须以数字结束。

你可能注意到了,py也可以匹配'python',但是加上^py$就变成了整行匹配,就只能匹配'py'了。

重新模块

有了准备知识,我们就可以在Python中使用正则表达式了。Python提供re模块,包含所有正则表达式的功能。由于Python的字符串本身也用\转义,所以要特别注意:

s = 'ABC\\-001' # Python的字符串
# 对应的正则表达式字符串变成:
# 'ABC\-001'

因此我们强烈建议使用Python的r前缀,就不用考虑转义的问题了:

s = r'ABC\-001' # Python的字符串
# 对应的正则表达式字符串不变:
# 'ABC\-001'

我们先看一下如何判断正则表达式是否匹配:

>>> import re
>>> re.match(r'^\d{3}\-\d{3,8}$', '010-12345')
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
>>> re.match(r'^\d{3}\-\d{3,8}$', '010 12345')
>>>

match()方法判断是否匹配,如果匹配成功,返回一个Match对象,否则返回None。常见的判断方法就是:

test = '用户输入的字符串'
if re.match(r'正则表达式', test):
    print('ok')
else:
    print('failed')

分割字符串

使用正则表达式来分割字符串比使用固定字符更加灵活。请看正常的分割代码:

>>> 'a b c'.split(' ')
['a', 'b', '', '', 'c']

嗯,连续空间无法被识别。尝试使用正则表达式:

>>> re.split(r'\s+', 'a b c')
['a', 'b', 'c']

无论多少个空格都可以正常分割。加入,试试:

>>> re.split(r'[\s\,]+', 'a,b, c d')
['a', 'b', 'c', 'd']

再加入;试试:

>>> re.split(r'[\s\,\;]+', 'a,b;; c d')
['a', 'b', 'c', 'd']

如果用户输入一组标签,下次记得使用正则表达式将不规则的输入转换为正确的数组。

团体

除了简单地判断是否匹配之外,正则表达式还有提取子串的强大功能。用()表示的就是要提取的分组(Group)。比如:

^(\d{3})-(\d{3,8})$分别定义了两个组,可以直接从匹配的字符串中提取出区号和本地号码:

>>> m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
>>> m
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
>>> m.group(0)
'010-12345'
>>> m.group(1)
'010'
>>> m.group(2)
'12345'

如果正则表达式中定义了组,就可以在Match对象上用group()方法提取出子串来。

注意到group(0)永远是原始字符串,group(1)group(2)……表示第1、2、……个子串。

对于提取子字符串非常有用。我们来看一个更残酷的例子:

>>> t = '19:05:30'
>>> m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t)
>>> m.groups()
('19', '05', '30')

这个正则表达式可以直接识别合法的时间。但有时,使用正则表达式无法进行完全验证,例如识别日期:

'^(0[1-9]|1[0-2]|[0-9])-(0[1-9]|1[0-9]|2[0-9]|3[0-1]|[0-9])$'

对于'2-30''4-31'这样的非法日期,用正则还是识别不了,或者说写出来非常困难,这时就需要程序配合识别了。

贪婪匹配

最后需要特别指出的是,正则匹配默认是贪婪匹配,也就是匹配尽可能多的字符。举例如下,匹配出数字后面的0

>>> re.match(r'^(\d+)(0*)$', '102300').groups()
('102300', '')

由于\d+采用贪婪匹配,直接把后面的0全部匹配了,结果0*只能匹配空字符串了。

必须让\d+采用非贪婪匹配(也就是尽可能少匹配),才能把后面的0匹配出来,加个?就可以让\d+采用非贪婪匹配:

>>> re.match(r'^(\d+?)(0*)$', '102300').groups()
('1023', '00')

编译

当我们在Python中使用正则表达式时,re模块在内部做了两件事:

  1. 编译正则表达式。如果正则表达式本身的字符串不合法,则会报错;

  2. 使用编译的正则表达式来匹配字符串。

如果一个正则表达式要重复使用数千次,我们可以预编译正则表达式以提高效率。复用时不需要编译这一步。它将直接匹配:

>>> import re
# 编译:
>>> re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
# 使用:
>>> re_telephone.match('010-12345').groups()
('010', '12345')
>>> re_telephone.match('010-8086').groups()
('010', '8086')

编译后,生成一个正则表达式对象。由于对象本身包含正则表达式,因此调用相应方法时无需给出正则字符串。

概括

正则表达式非常强大,不可能在一节中涵盖所有内容。要把所有规则解释清楚,可以写一本厚厚的书。如果你经常遇到正则表达式的问题,你可能需要一本正则表达式参考书。


. . .

相关推荐

额外说明

Go有点

优 • 速度快 • 省内存 • 高并发 • 语法简单,开发高效

额外说明

一键从数据库表生成Java Bean文件

前言:最近写web Service接口项目。每个数据库表字段都100+,几十张表。瞬间指瘫了。于是想起曾经的javaBean生成工具,上车吧! 需要环境:JDK1.7 (亲测可行), 支持mysql,Oracle,SqlServer, 支持java c#

额外说明

KVM虚拟化

文章目录 kvm虚拟化 1. kvm虚拟化介绍 2. kvm介绍 3. kvm部署 3.1kvm安装 3.2kwm web管理界面安装 3.3kvm web界面管理 3.3.1kvm连接管理 3.3.2kvm存储管理 3.3.3kvm网络管理 3.3.4

额外说明

Java实现阿里云的短信发送功能(保姆级!!!要了解短信功能,这篇文章就够了!)

目录 一、准备工作 1)功能如何切入? 2)为什么要用阿里云来实现? 二、阿里云部分 三、代码部分 OK,分享结束!收! 一、准备工作 1)功能如何切入? 第一步:分析业务需求,想要实现短信通知功能那就要有短信的收发双方,而手机上的短信功能需要占用通信资

额外说明

springcloud面试习题总结(2022版本)

这里写目录标题 1.Spring Cloud全家桶组件 (1)Spring Cloud Eureka (2)Spring Cloud Ribbon (3)Spring Cloud Feign (4)Spring Cloud Hystrix (5)Spri

额外说明

Python每日一练——列表,元组和字典第七关:zip和dict函数的使用

面试题第七关: 第一部分——考点: zip和dict函数的使用 第二部分——面试题: 1.面试题一:如何将两个列表或元组合并成一个字典,形式如下: a = ["a","b"] b = [1,2] 合并后{'a':1,'b':2} 第三部分——解析: 面

额外说明

【C#进阶3-3】C#集合、泛型

一、目录 【Unity3D从入门到进阶】文章目录及设置这个专栏的初衷 二、C#集合 2-1、描述 集合(Collection)类是专门用于数据存储和检索的类。这些类提供了对栈(stack)、队列(queue)、列表(list)和哈希表(hash tabl

额外说明

【Unity3D开发小游戏】《打地鼠游戏》Unity开发教程

文章目录 一、前言 二、源码 三、正文 版本 1、相机设置 2、洞口设置 3、洞口脚本 4、鼹鼠 5、鼹鼠动画 6、鼹鼠碰撞器 7、鼹鼠脚本 8、击中鼹鼠的效果 9、实现击中效果 10、增加更多的洞口 四、后言 一、前言 让我们使用Unity3D开发一个

额外说明

Flink学习笔记04:将项目打包提交到Flink集群上运行(Scala版)

文章目录 一、创建Maven项目 - ScalaWordCount 三、利用mvn命令打包Maven项目 三、上传项目jar包到Flink集群主节点 四、启动Flink Standalone集群 五、将应用提交到Flink集群运行 (一)不设置输入参数,

额外说明

Switch开关(antd-design组件库)简单易用

1.开关开关 开关选择器。 2.何时使用 ·需要指示开关状态/两种状态之间切换时; ·与checkbox不同的是,切换开关会直接触发状态变化,而checkbox一般用于状态标记,需要与提交操作配合。 组件代码来自: 开关 开关 - Ant Design

ads via 小工具