侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

学会Python正则表达式,就看这20个例子(爱蒂网修正版)

Python  /  管理员 发布于 7年前   414

正则表达式是处理字符串的强大工具。作为一个概念而言,正则表达式对于Python来说并不是独有的。但是,Python中的正则表达式在实际使用过程中还是有一些细小的差别。

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。

Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。

re 模块使 Python 语言拥有全部的正则表达式功能。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。

1、查找第一个匹配串

import res='i love python very much'pat='python'r=re.search(pat,s)print(r.span())#(7,13)

2、查找所有1

import res='山东省潍坊市青州第1中学高三1班'pat='1'r=re.finditer(pat,s)for i in r: print(i) # <re.Match object; span=(9, 10), match='1'># <re.Match object; span=(14, 15), match='1'>

3、\d匹配数字[0-9]

import res='一共20行代码运行时间13.59s'pat=r'\d+'#+表示匹配数字(\d表示数字的通用字符)1次或多次r=re.findall(pat,s)print(r)#['20','13','59']

我们想保留13.59而不是分开,请看4

4、?表示前一个字符匹配0或1次

import res='一共20行代码运行时间13.59s'pat=r'\d+\.?\d+'#?表示匹配小数点(\.)0次或1次r=re.findall(pat,s)print(r)#['20','13.59']

5、^匹配字符串的开头

import res='This module provides regular expression matching operations similar to those found in Perl'pat=r'^[emrt]' #查找以r=re.findall(pat,s)print(r)# [],因为字符串的开头是字符`T`,不在emrt匹配范围内,所以返回为空

6、re.I 忽略大小写

import res='This module provides regular expression matching operations similar to those found in Perl'pat=r'^[emrt]' #查找以r=re.compile(pat,re.I).search(s)print(r)# <re.Match object; span=(0, 1), match='T'> 表明字符串的开头在匹配列表中

7、使用正则提取单词

这是不准确版本,请参看第9个

import res='This module provides regular expression matching operations similar to those found in Perl'pat=r'\s[a-zA-Z]+'r=re.findall(pat,s)print(r) #[' module', ' provides', ' regular', ' expression', ' matching', ' operations', ' similar', ' to', ' those', ' found', ' in', ' Perl']

8、只捕获单词,去掉空格

使用()捕获,这是不准确版本,请参看第9个

import res='This module provides regular expression matching operations similar to those found in Perl'pat=r'\s([a-zA-Z]+)'r=re.findall(pat,s)print(r)#['module', 'provides', 'regular', 'expression', 'matching', 'operations', 'similar', 'to', 'those', 'found', 'in', 'Perl']

9、补充上第一个单词

上面第8,看到提取单词中未包括第一个单词,使用?表示前面字符出现0次或1次,但是此字符还有表示贪心或非贪心匹配含义,使用时要谨慎。

import res='This module provides regular expression matching operations similar to those found in Perl'pat=r'\s?([a-zA-Z]+)'r=re.findall(pat,s)print(r)#['This', 'module', 'provides', 'regular', 'expression', 'matching', 'operations', 'similar', 'to', 'those', 'found', 'in', 'Perl']

10、使用split函数直接分割单词

使用以上方法分割单词,不是简洁的,仅仅为了演示。分割单词最简单还是使用split函数。

import res = 'This module provides regular expression matching operations similar to those found in Perl'pat = r'\s+'r = re.split(pat,s)print(r)#['This', 'module', 'provides', 'regular', 'expression', 'matching', 'operations', 'similar', 'to', 'those', 'found', 'in', 'Perl']

11、提取以m或t开头的单词,忽略大小写

下面出现的结果不是我们想要的,原因出在 ?上!

import res='This module provides regular expression matching operations similar to those found in Perl'pat=r'\s?([mt][a-zA-Z]*)' # 查找以r=re.findall(pat,s)print(r)#['module', 'matching', 'tions', 'milar', 'to', 'those']

12、使用^查找字符串开头的单词

综合11和12得到所有以m或t开头的单词

import res='This module provides regular expression matching operations similar to those found in Perl'pat=r'^([mt][a-zA-Z]*)\s' # 查找以r=re.compile(pat,re.I).findall(s)print(r) #['This']

13、先分割,再查找满足要求的单词

使用match表示是否匹配

import res='This module provides regular expression matching operations similar to those found in Perl'pat=r'\s+'r=re.split(pat,s)res=[i for i in r if re.match(r'[mMtT]',i)]print(res)#['This', 'module', 'matching', 'to', 'those']

14、贪心匹配

尽可能多的匹配字符

import recontent='<h>ddedadsad</h><div>graph</div>bb<div>math</div>cc'pat=re.compile(r"<div>(.*)</div>") #贪婪模式m=pat.findall(content)print(m)#['graph</div>bb<div>math']

15、非贪心匹配

与14相比,仅仅多了一个问号(?),得到结果完全不同。

import recontent='<h>ddedadsad</h><div>graph</div>bb<div>math</div>cc'pat=re.compile(r"<div>(.*?)</div>") #贪婪模式m=pat.findall(content)print(m)#['graph', 'math']

与14比较可知,贪心匹配和非贪心匹配的区别,后者是字符串匹配后立即返回,见好就收。

16、含有多种分割符

使用split函数

import recontent = 'graph math,,english;chemistry' #这种pat=re.compile(r"[\s\,\;]+") #贪婪模式m=pat.split(content)print(m)#['graph', 'math', 'english', 'chemistry']

17、替换匹配的子串

sub函数实现对匹配子串的替换

import recontent="hello 12345, hello 456321" pat=re.compile(r'\d+') #要替换的部分m=pat.sub("666",content)print(m)#hello 666, hello 666

18、爬取百度首页标题

import refrom urllib import request #爬虫爬取百度首页内容data=request.urlopen("http://www.baidu.com/").read().decode() #分析网页,确定正则表达式pat=r'<title>(.*?)</title>'result=re.search(pat,data)print(result)#<re.Match object; span=(1389, 1413), match='<title>百度一下,你就知道</title>'>

下面是知识点分享

19、常用元字符总结

. 匹配任意字符  
^ 匹配字符串始位置 
$ 匹配字符串中结束的位置 
* 前面的原子重复0次1次多次 
? 前面的原子重复一次或者0次 
+ 前面的原子重复一次或多次
{n} 前面的原子出现了 n 次
{n,} 前面的原子至少出现 n 次
{n,m} 前面的原子出现次数介于 n-m 之间
( ) 分组,需要输出的部分

20、常用通用字符总结

\s 匹配空白字符
\w 匹配任意字母/数字/下划线
\W 和小写 w 相反,匹配任意字母/数字/下划线以外的字符
\d 匹配十进制数字
\D 匹配除了十进制数以外的值
[0-9] 匹配一个0-9之间的数字
[a-z] 匹配小写英文字母
[A-Z] 匹配大写英文字母

以上就是Python中正则模块的基本使用总结,里面有循序渐进的优化分析过程,这些虽然是中间过程,但是对于正则小白而言,了解这些很有必要。笔者对于正则的理解也比较肤浅,如有总结不到位之处,恳请指正。


  • 上一条:
    一文秒懂python正则表达式常用函数
    下一条:
    python 正则表达式语法学习笔记
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 在python语言中Flask框架的学习及简单功能示例(0个评论)
    • 在Python语言中实现GUI全屏倒计时代码示例(0个评论)
    • Python + zipfile库实现zip文件解压自动化脚本示例(0个评论)
    • python爬虫BeautifulSoup快速抓取网站图片(1个评论)
    • vscode 配置 python3开发环境的方法(0个评论)
    • 近期文章
    • 在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf文件功能(0个评论)
    • Laravel从Accel获得5700万美元A轮融资(0个评论)
    • 在go + gin中gorm实现指定搜索/区间搜索分页列表功能接口实例(0个评论)
    • 在go语言中实现IP/CIDR的ip和netmask互转及IP段形式互转及ip是否存在IP/CIDR(0个评论)
    • PHP 8.4 Alpha 1现已发布!(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2018-04
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2022-01
    • 2023-07
    • 2023-10
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客