Python 网页解析HTMLParse的实例详解
Python  /  管理员 发布于 7年前   179
Python 网页解析HTMLParse的实例详解
使用python将网页抓取下来之后,下一步我们就应该解析网页,提取我们所需要的内容了,在python里提供了一个简单的解析模块HTMLParser类,使用起来也是比较简单的,解析语法没有用到XPath类似的简洁模式,但新手用起来还是比较容易的,看下面的例子:
现在一个模拟的html文件:
<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body> </html>
需求是,提取出标题的属性值,以及内容:
代码如下:
import html.parser as h class MyHTMLParser(h.HTMLParser): a_t=False def handle_starttag(self, tag, attrs): #print("开始一个标签:",tag) print() if str(tag).startswith("title"): print(tag) self.a_t=True for attr in attrs: print(" 属性值:",attr) def handle_endtag(self, tag): if tag == "title": self.a_t=False #print("结束一个标签:",tag) def handle_data(self, data): if self.a_t is True: print("得到的数据: ",data) p=MyHTMLParser() p.feed("<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body> </html>") p.close()
运行结果如下:
title 属性值: ('id', 'main') 属性值: ('mouse', '你好') 得到的数据: 我是标题
主要的技术就是继承了HTMLParser类,然后重写了里面的一些方法,来完成自己的业务,从上面的代码里,发现如果想获取某个标签的内容,还是比较麻烦的,当然这是python里面最简单的html解析方式,还有很多其他组件,scrapy等等,里面支持Xpath路径解析,使用起来非常简洁清爽。
解析代码学会之后,我们就可以将使用urllib包,抓取到的数据交给htmlparser解析,从而提取出我们所需要的内容。
以上就是Python 网页解析HTMLParse的实例详解,如有疑问请留言或者到本站社区交流讨论,感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!
122 在
学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..123 在
Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..原梓番博客 在
在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..博主 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..1111 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
Copyright·© 2019 侯体宗版权所有·
粤ICP备20027696号