正则表达式不包含属性
前端  /  管理员 发布于 7年前   339
找出所有img标签的,没有带说明属性alt的标签:
正则:
<img(?![^<>]*?alt[^<>]*?>).*?>
例子:
<img src="https:/article/" alt=""> <img src="https:/article/" > <img src="https:/article/" title=""> <img src="https:/article/" id=""> <img src="https:/article/" title="" alt="">
扩展,如果要找没有带title属性的a应该是:
正则:
<a(?![^<>]*?title[^<>]*?>).*?>
<a src="https:/article/" alt=""> <a src="https:/article/" > <a src="https:/article/" title=""> <a src="https:/article/" id=""> <a src="https:/article/" title="" alt="">
用正则表达式找出不包含连续字符串abc的单词
[^abc]表示不包含a、b、c中任意字符, 我想实现不包含字符串abc应该如何写表达式?
就我自己而言,这个问题最简单的解决方法是使用编程语言的配合,找出那些包含abc的,剩下的就是不包含的了――懒人的风格。但我写的是教程,读者未必都有编程的基础,有些只是使用一些工具从txt文档中抽取出一些信息,所以要回答还是必须完全通过正则表达式来完成。
于是打开了RegexTester,开始试验,先是试了使用
((?'test'abc)|.)*(?(test)(?!))
(含意是:查找abc,或任意的字符,如果找到了abc,就把它存入命名为test的组里,到最后检查test组里是否有内容,如果有就匹配失败,相关说明见教程),
结果是"abc","aabc","abcd","aa"都能通过测试,看来是到最后测试到test组存在后又回溯了,此解决方案不可行。
(.(?!abc))*
(找出所有后面不是abc的字符),结果是"abc","abcd"通过测试,"aabc"则只截取了后面的"abc",显然不行。
((?<!abc).(?!abc))*
(找出所有前面和后面都不是abc的字符),结果是所有包含abc的字符串都只截取了里面的"abc",不包含abc的则直接通过。
现在看来有点戏了,但是怎么把那些内部包含abc的字符串过滤掉呢?
如果用户想要找的是单词,那就在表达式的两端加上\b,如果要找的是行,就加上^和$。
由于用户的问题没有明确说明,我就当作是单词吧。
于是等到了这样的表达式:
\b((?<!abc).(?!abc))*\b
经过测试,这个表达式能匹配所有不包含abc的单词,以及单词abc。
经过一番思考,最后我认为判断单词是否以a开头的方式最为方便:
\b(a(?!bc)|[^a](?!abc))((?<!abc).(?!abc))*\b
(要么以后面不是bc的a开头,要么不以a开头,除了开头后面所有的字符必须前面和后面都不是abc)。
\b(a(?!bc)|[^a](?!abc))((?<!abc).(?!abc))*\b
\b((?!abc)\w)+\b
在使用正则表达式的场合,常常有这种需求,就是匹配一个不包含某个子串的子符串。
比如说,我要从“eabcdfgh”得到"cd"之前的子串。有些人可能会写:
([^cd]*)
这种写法是彻底错误的,因为[]中的是集合,也就是说,[^cd]表示不等于c或者d,而不是cd。
String s = "([^cd]*)";
Match m = Regex.Match("eabcfgh", s);
MessageBox.Show(m.Value);//eab
MessageBox.Show(m.Groups[1].Value);//eab
上面这种写法是错的比较离谱的,正常青年一般都可以避免这种错误。
([/s/S]*cd)
先说明下/s/S是表示匹配任何字符。所谓特殊情况,就是我知道这个字符串中必有cd的存在。
假如,我的要求是匹配不包含cd的部分(为了描述方便,只匹配cd之前的部分),也就是说,当cd不存在时,应该把整个字符串都取出来。
代码如下:
String s = "((.(?!cd))*.)";
//String s = "([/s/S]*cd)";
Match m = Regex.Match("eabcdfgh", s);
MessageBox.Show(m.Value);//eab
MessageBox.Show(m.Groups[1].Value);//eab
这种写法终于符合要求了。不过值得一提的是,相较前一种而言,它的效率比较低。
回顾一下相关的语法:
(?:子表达式) 定义非捕获组。
代码如下:
//定义非捕获组
String s = "e(?:ab)(.*)";
Match m = Regex.Match("eabcd", s);
MessageBox.Show(m.Value);//eabcd
MessageBox.Show(m.Groups[1].Value);//cd
ab是被匹配的,但是它所在的组没有被捕获,Group[1]是cd
(?=子表达式) 零宽度正预测先行断言。
代码如下:
//零宽度正预测先行断言
//String s = "b(cd|de)(.*)";
String s = "b(?=cd|de)(.*)";
Match m = Regex.Match("eabcdfg", s);
MessageBox.Show(m.Value);
MessageBox.Show(m.Groups[1].Value);//区别 cd cdfg
这种写法和注释掉的写法是有区别的,区别就是“零宽度”,这种写法会被捕获,也就是不占一个Group。
(?!子表达式) 零宽度负预测先行断言。
!表示非,就是不包含,同样是零宽度,不会被捕获。
(?<=子表达式) 零宽度正回顾后发断言。
例:
(?<=19)\d{2}\b
“1851 1999 1950 1905 2003”中的“99”、“50”和“05”
(?<!子表达式) 零宽度负回顾后发断言。
例:
(?<!19)\d{2}\b
“1851 1999 1950 1905 2003”中的“51”和“03”
122 在
学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..123 在
Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..原梓番博客 在
在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..博主 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..1111 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
Copyright·© 2019 侯体宗版权所有·
粤ICP备20027696号