侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

深入浅析正则表达式re模块(部分)

前端  /  管理员 发布于 7年前   418

正则表达式:

官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

​ 什么是正则表达式: 一套规则 - 匹配字符串的

​ 谈到正则,就只和字符串相关了。我们要考虑的是在同一个位置上可以出现的字符的范围。

​ 正则表达式能做什么:

•1.检测一个输入的字符串是否合法 -- web开发项目 表单验证 ◦用户输入一个内容的时候,我们要提前做检测
◦能够提高程序的效率并且减轻服务器的压力

•2.从一个大文件中找到所有符合规则的内容 -- 日志分析\爬虫 ◦能够高效的从一大段文字中快速找到符合规则的内容

字符组 : [字符组]

在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示。一个中括号只表示一个字符位置
 字符分为很多类,比如数字、字母、标点等等。假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一。
     字符组 描述的是一个位置上能出现的所有可能性
    # 接受范围,可以描述多个范围,连着写就可以了
    # [abc]    一个中括号只表示一个字符位置,匹配a或者b或者c
    # [0-9]     匹配数字0-9,根据ASCII进行范围的比对
    # [a-z]     匹配所有的小写字母
    # [A-Z]     匹配所有的大写字母
    # [a-zA-Z]  匹配所有的大小写字母
    # [0-9a-z]
    # [0-9a-zA-Z_]

元字符:

        字符:

        元字符           匹配内容的规则
        .               匹配除换行符以外的任意字符
        \w              匹配字母或数字或下划线
        \s              匹配任意的空白符
        \d              匹配数字
        \n              匹配一个换行符
        \t              匹配一个制表符
        \b              匹配一个单词的结尾
        ^               匹配一个字符串的开始
        $               匹配一个字符串的结尾
        \W              匹配非字母或数字或下划线
        \D              匹配非数字
        \S              匹配非空白符
        a|b             匹配字符a或字符b
        a表达式|b表达式   匹配a或者b表达式中的内容,如果匹配a成功了,不会继续和b匹配, 所以,如果两个规则有重叠部分,总是把长的放在前面
        ()              分组,匹配括号内的表达式,也表示一个组。约束某一个元字符的作用范围,只在()内生效
        []              字符组,匹配字符组中的字符
        [^]             非字符组,匹配除了字符组中字符的所有字符
        在正则表达式中能够帮助我们表示匹配的内容的符号都是正则中的 元字符
        # [0-9]        -->  \d   表示匹配一位任意数字 digit
        # [0-9a-zA-Z_] -->  \w   表示匹配数字字母下划线 word
        # 空格 -->
        # tab  -->  \t
        # enter回车  -->  \n
        # 空格,tab和回车 --> \s  表示所有空白 包括空格 tab和回车
        # [\d]  \d  表示匹配数字
        # [\d\D] [\w\W] [\s\S]  表示匹配所有
        # [^\d]  匹配所有的非数字
        # [^1]  匹配除数字1以外的所有  
        # [1-9]\d 匹配两位整数
        # [1357]\d  匹配1,3,5,7,开头的两位整数
              例1:匹配多个网址:
             www\.oldboy\.com|www\.baidu\.com|www\.jd\.com|www\.taobao\.com     #\.表示取消.的特殊意义
             www\.(oldboy|baidu|jd|taobao)\.com    #用() 来约束 | 描述的内容的范围      
        记忆元字符 : 都是表示能匹配哪些内容,一个元字符总是表示一个字符位置上的内容
        # \d \w \s \t \n \D \W \S
        # [] [^] .
        # ^ $
        # | ()

量词:

        量词  用法说明
        *      重复0次或更多次,表示0次或多次    {0,}
        +      重复1次或更多次,表示1次或多次    {1,}
        ?      重复0次或1次,表示匹配0次或1次    {0,1}
        {n}    重复n次,表示匹配n次
        {n,}   重复n次或更多次,表示匹配至少n次
        {n,m}  重复n到m次,表示至少匹配n次,至多m次
        例:
            匹配整数 \d+
            匹配小数 \d+\.\d+
            匹配整数或小数 : \d+\.?\d* #存在问题,比如1.也会被匹配到   --->  分组的作用 : \d+(\.\d+)?
        例:匹配手机号码,手机号以1开头,第二位为3-9,总共11位             
            1[3-9]\d{9}

            #判断用户输入的内容是否合法,如果用户输入的对就能查到结果,如果输入的不对就不能查到结果
                 ^1[3-9]\d{9}$
            # 从一个大文件中找到所有符合规则的内容
                 1[3-9]\d{9}  

转义符:

 原本有特殊意义的字符,到了表达它本身的意义的时候,需要转义。     

     . 有特殊的意义,取消特殊的意义\.

  有一些有特殊意义的内容,放在字符组中,会取消它的特殊意义
                #只表示符号本身
          [().*+?] 所有的内容在字符组中会取消它的特殊意义        
         #表示:a-c (a减c)
          [a\-c]  -在字符组中表示范围,如果不希望它表示范围,需要转义,或者放在字符组的最前面\最后面 。
 取消一个元字符的特殊意义有两种方法:
        1. 在这个元字符前面加\
        2. 对一部分字符生效,把这个元字符放在字符组里
            # [.()+?*]

贪婪匹配:

 1.贪婪匹配:在量词范围允许的情况下,尽量多的匹配内容     .*x 表示匹配任意字符 任意多次数 遇到最后一个x才停下来    回溯算法:  2.非贪婪(惰性)匹配: 总是在量词范围内尽量少的匹配内容。前面的*,+等都是贪婪匹配,也就是尽可能匹配,后面加?号使其变成惰性匹配    .*?x 表示匹配任意字符 任意多次数 但是一旦遇到x就停下来  .+?x 匹配任意内容至少1次 遇到x就停止    元字符+量词+? ---> 惰性匹配    几个常用的非贪婪匹配:   *? 重复任意次,但尽可能少重复   +? 重复1次或更多次,但尽可能少重复   ?? 重复0次或1次,但尽可能少重复   {n,m}? 重复n到m次,但尽可能少重复   {n,}? 重复n次以上,但尽可能少重复   例:匹配身份证号码:18/15位的身份证号 # 15位:首位数字为1-9,总共15位  [1-9]\d{14} # 18位:首位数字为1-9,末位为0-9或者X,总共18位   [1-9]\d{16}[\dx]   [1-9]\d{16}[0-9x] #1:  [1-9]\d{16}[0-9x]|[1-9]\d{14}   #从一个大文件中找到所有符合规则的内容。表示先匹配[1-9]\d{16}[0-9x]如果没有匹配上就匹配[1-9]\d{14}  ^([1-9]\d{16}[0-9x]|[1-9]\d{14})$  #检测一个输入的字符串是否合法 #2:简化  [1-9]\d{14}(\d{2}[\dx])?  #从一个大文件中找到所有符合规则的内容  ^[1-9]\d{14}(\d{2}[\dx])?$  #检测一个输入的字符串是否合法 。()表示分组,将\d{2}[\dx]分成一组,就可以整体约束他们出现的次数为0-1次  例: 规则:1\d*?3 待匹配内容:1243333344  匹配结果:1243 规则:1\d*3  待匹配内容:1243333344  匹配结果:12433333re模块:# findall 还是按照完整的正则进行匹配,只是显示括号里匹配到的内容。 取所有符合条件的,优先显示分组中的。 ret = re.findall('9\d\d','19740ash93010uru') print(ret)#['974', '930'] ret = re.findall('9(\d)\d','19740ash93010uru') print(ret)#['7', '3']# search 还是按照完整的正则进行匹配,显示也显示匹配到的第一个内容,但是我们可以通过给group方法传参数,来获取具体分组,即()中的内容。 search 只取第一个符合条件的,没有优先显示这件事儿 得到的结果是一个变量  变量.group() 的结果 完全和 变量.group(0)的结果一致  变量.group(n) 的形式来指定获取第n个分组中匹配到的内容 ret = re.search('9(\d)(\d)','19740ash93010uru') print(ret) # 变量 <_sre.SRE_Match object; span=(1, 4), match='974'> if ret:  print(ret.group())#974 #ret.group(0) 0 默认不写  print(ret.group(1))#7  print(ret.group(2))#4# 为什么在search中不需要分组优先 而在findall中需要? 加上括号是为了对真正需要的内容进行提取。 为什么要用分组? 把想要的内容放分组里 如果我们要查找的内容在一个复杂的环境中,我们要查的内容并没有一个突出的 与众不同的特点 甚至会和不需要的杂乱的数据混合在一起,这个时候我们就需要把所有的数据都统计出来,然后对这个数据进行筛选,把我们真正需要的数据对应的正则表达式用()圈起来,这样我们就可以筛选出真正需要的数据了。# 如何取消分组优先 如果在写正则的时候由于不得已的原因,导致不要的内容也得写在分组里,通过 ?: 取消这个分组的优先显示 # (?:) 取消这个分组的优先显示#findall ret = re.findall('<\w+>(\w+)</\w+>','<h1>askh930s02391j192agsj</h1>') print(ret)#['askh930s02391j192agsj']# search ret = re.search('<(\w+)>(\w+)</\w+>','<h1>askh930s02391j192agsj</h1>') print(ret.group())#<h1>askh930s02391j192agsj</h1> print(ret.group(1))#h1 print(ret.group(2))#askh930s02391j192agsj#从exp中匹配出第一个加法,第一个减法, a+b 或者是a-b 并且计算他们的结果  exp = '2-3*(5+6)'  ret = re.search('(\d+)[+](\d+)',exp)  print(ret)  print(ret.group(1))#5  print(ret.group(2))#6  print(int(ret.group(1)) + int(ret.group(2)))#11 #将豆瓣源码放到douban.html,从中获取电影名: with open('douban.html',encoding='utf-8') as f:  content = f.read() ret = re.findall('<span class="title">(.*?)</span>(?:\s*<span class="title">.*?</span>)?',content) print(ret) #除了 霸王别姬,其他电影都是 肖申克的救赎 这种格式的。 (.*?) 要显示的电影名 其中 ?是非贪婪匹配的标志 (?:\s*<span class="title">.*?</span>)? ?: 取消这个分组的优先显示,整个()内都不显示  \s* 两行代码之间所有的空字符  .*? 电影英文名         ? 该部分出现0次 或者1次# 什么是爬虫 # 通过代码获取到一个网页的源码,需要的是源码中嵌着的网页上的内容 -- 正则表达式 #先安装扩展模块 File--Settings--Project Interpreter-- + --找到包---Install Package import requests ret = requests.get('https://movie.douban.com/top250?start=0&filter=') print(ret.content.decode('utf-8'))

总结

以上所述是小编给大家介绍的深入浅析正则表达式re模块(部分),希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!


  • 上一条:
    Scala中正则表达式以及与模式匹配结合(多种方式)
    下一条:
    开发过程最全的正则表达式匹配中英文、字母和数字
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 使用 Alpine.js 排序插件对元素进行排序(0个评论)
    • 在js中使用jszip + file-saver实现批量下载OSS文件功能示例(0个评论)
    • 在vue中实现父页面按钮显示子组件中的el-dialog效果(0个评论)
    • 使用mock-server实现模拟接口对接流程步骤(0个评论)
    • vue项目打包程序实现把项目打包成一个exe可执行程序(0个评论)
    • 近期文章
    • 智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
    • 智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
    • 智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
    • 智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
    • 在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
    • 在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2017-06
    • 2017-07
    • 2017-08
    • 2017-09
    • 2017-10
    • 2017-11
    • 2018-03
    • 2018-04
    • 2018-05
    • 2018-06
    • 2018-09
    • 2018-11
    • 2018-12
    • 2019-02
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2021-04
    • 2021-05
    • 2021-07
    • 2021-08
    • 2021-09
    • 2021-10
    • 2021-11
    • 2022-08
    • 2022-09
    • 2022-10
    • 2022-11
    • 2022-12
    • 2023-01
    • 2023-02
    • 2023-03
    • 2023-04
    • 2023-05
    • 2023-06
    • 2023-07
    • 2023-09
    • 2023-10
    • 2023-11
    • 2023-12
    • 2024-01
    • 2024-02
    • 2024-03
    • 2024-04
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客