侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

使用Python正则表达式操作文本数据的方法

Python  /  管理员 发布于 7年前   172

什么是正则表达式

正则表达式,是简单地字符的序列,可指定特定的搜索模式。正则表达式已存在很长一段时间,并且它本身就是计算机科学的一个领域。

在 Python中,使用Python的内置re模块处理正则表达式操作 。在本节中,我将介绍创建正则表达式并使用它们的基础知识。您可以使用以下步骤实现正则表达式:

  1. 指定模式字符串。
  2. 将模式字符串编译为正则表达式对象。
  3. 使用正则表达式对象在字符串中搜索模式。
  4. 可选:从字符串中提取匹配的模式。

编写和使用正则表达式

在Python中创建正则表达式的第一步是导入re 模块:

import re

Python正则表达式使用模式字符串表示,模式字符串是指定所需搜索模式的字符串。在最简单的形式中,模式字符串只能由字母,数字和空格组成。以下模式字符串表示精确字符序列的搜索查询。您可以将每个角色视为一个单独的模式。在后面的例子中,我将讨论更复杂的模式:

import repattern_string = "this is the pattern"

下一步是将模式字符串处理为Python可以使用的对象,以便搜索模式。这是使用re模块的compile()方法完成的。的编译()方法将图案字符串作为参数并返回一个正则表达式对象:

import repattern_string = "this is the pattern" regex = re.compile(pattern_string)

获得正则表达式对象后,可以使用它在搜索字符串中搜索模式字符串中指定的模式。搜索字符串只是您要在其中查找模式的字符串的名称。要搜索模式,可以使用regex对象的search()方法,如下所示:

import repattern_string = "this is the pattern" regex = re.compile(pattern_string)match = regex.search("this is the pattern")

如果模式字符串中指定的模式位于搜索字符串中,则search()方法将返回匹配对象。否则,它返回None数据类型,这是一个空值。

由于Python相当松散地解释了True和False值,因此搜索函数的结果可以像if语句中的布尔值一样使用,这可能相当方便:

....match = regex.search("this is the pattern") if match:print("this was a match!")

这个模式应该产生一个匹配,因为它与模式字符串中指定的模式完全匹配。如果在搜索字符串的任意位置找到模式,搜索函数将生成匹配,如下所示:

....match = regex.search("this is the pattern") if match:print("this was a match!")if regex.search("*** this is the pattern ***"): print("this was not a match!")if not regex.search("this is not the pattern"): print("this was not a match!")

特殊字符

正则表达式取决于使用某些特殊字符来表达模式。因此,除非用于预期目的,否则不应直接使用以下字符:

. ^ $ * + ? {} () [] |

如果确实需要使用模式字符串中的任何前面提到的字符来搜索该字符,则可以编写以反斜杠字符开头的字符。这称为转义字符。这是一个例子:

pattern string = "c*b"## matches "c*b"

如果需要搜索反斜杠字符本身,则使用两个反斜杠字符,如下所示:

pattern string = "cb"## matches "cb"

匹配空格

在模式字符串中的任何位置使用s都匹配空白字符。这比空格字符更通用,因为它适用于制表符和换行符:

....a_space_b = re.compile("asb") if a_space_b.search("a b"):print("'a b' is a match!")if a_space_b.search("1234 a b 1234"): print("'1234 a b 1234' is a match")if a_space_b.search("ab"):print("'1234 a b 1234' is a match")

匹配字符串的开头

如果在模式字符串的开头使用^字符,则只有在搜索字符串的开头找到模式时,正则表达式才会产生匹配:

....a_at_start = re.compile("^a") if a_at_start.search("a"):print("'a' is a match")if a_at_start.search("a 1234"): print("'a 1234' is a match")if a_at_start.search("1234 a"): print("'1234 a' is a match")

匹配字符串的结尾

类似地,如果在模式字符串的末尾使用$符号,则正则表达式将仅在模式出现在搜索字符串的末尾时生成匹配:

....a_at_end = re.compile("a$") if a_at_end.search("a"):print("'a' is a match") if a_at_end.search("a 1234"):print("'a 1234' is a match") if a_at_end.search("1234 a"):print("'1234 a' is a match")

匹配一系列字符

可以匹配一系列字符而不是一个字符。这可以为模式增加一些灵活性:

[A-Z] matches all capital letters[a-z] matches all lowercase letters[0-9] matches all digits....lower_case_letter = re.compile("[a-z]") if lower_case_letter.search("a"):print("'a' is a match")if lower_case_letter.search("B"): print("'B' is a match")if lower_case_letter.search("123 A B 2"): print("'123 A B 2' is a match")digit = re.compile("[0-9]") if digit.search("1"):print("'a' is a match") if digit.search("342"):print("'a' is a match") if digit.search("asdf abcd"):print("'a' is a match")

匹配几种模式中的任何一种

如果存在构成匹配的固定数量的模式,则可以使用以下语法组合它们:

(||)

以下a_or_b正则表达式将匹配任何字符或ab字符的字符串:

....a_or_b = re.compile("(a|b)") if a_or_b.search("a"):print("'a' is a match") if a_or_b.search("b"):print("'b' is a match") if a_or_b.search("c"):print("'c' is a match")

匹配序列而不是仅匹配一个字符

如果+字符位于另一个字符或模式之后,则正则表达式将匹配该模式的任意长序列。这非常有用,因为它可以很容易地表达可以是任意长度的单词或数字。

将模式放在一起

通过一个接一个地组合图案串可以产生更复杂的图案。在下面的示例中,我创建了一个正则表达式,用于搜索严格后跟单词的数字。生成正则表达式的模式字符串由以下内容组成:

与数字序列匹配的模式字符串:[0-9]+与空白字符匹配的模式字符串:s与字母序列匹配的模式字符串:[az] +

与字符串结尾或空格字符匹配的模式字符串:(s | $)

....number_then_word = re.compile("[0-9]+s[a-z]+(s|$)")

正则表达式split()函数

Python中的Regex 对象也有一个split()方法。split方法将搜索字符串拆分为子字符串数组。所述分裂发生在沿着其中该图案被识别的字符串中的每个位置。结果是在模式的实例之间出现的字符串数组。如果模式出现在搜索字符串的开头或结尾,则分别在结果数组的开头或结尾包含一个空字符串:

....print(a_or_b.split("123a456b789")) print(a_or_b.split("a1b"))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。


  • 上一条:
    python中时间模块的基本使用教程
    下一条:
    python3 pygame实现接小球游戏
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 在python语言中Flask框架的学习及简单功能示例(0个评论)
    • 在Python语言中实现GUI全屏倒计时代码示例(0个评论)
    • Python + zipfile库实现zip文件解压自动化脚本示例(0个评论)
    • python爬虫BeautifulSoup快速抓取网站图片(1个评论)
    • vscode 配置 python3开发环境的方法(0个评论)
    • 近期文章
    • 在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)
    • 智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
    • 智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
    • 智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
    • 智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
    • 在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
    • 在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2018-04
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2022-01
    • 2023-07
    • 2023-10
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客