Python 网页解析HTMLParse的实例详解-侯体宗的博客

Python 网页解析HTMLParse的实例详解
Python / 管理员发布于 8年前 252

Python 网页解析HTMLParse的实例详解

使用python将网页抓取下来之后，下一步我们就应该解析网页，提取我们所需要的内容了，在python里提供了一个简单的解析模块HTMLParser类，使用起来也是比较简单的，解析语法没有用到XPath类似的简洁模式，但新手用起来还是比较容易的，看下面的例子：

现在一个模拟的html文件：

<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body>  </html>

需求是，提取出标题的属性值，以及内容：

代码如下：

import html.parser as h    class MyHTMLParser(h.HTMLParser):   a_t=False   def handle_starttag(self, tag, attrs):     #print("开始一个标签:",tag)     print()     if str(tag).startswith("title"):       print(tag)       self.a_t=True       for attr in attrs:         print("  属性值：",attr)    def handle_endtag(self, tag):     if tag == "title":       self.a_t=False       #print("结束一个标签:",tag)    def handle_data(self, data):     if self.a_t is True:       print("得到的数据: ",data)    p=MyHTMLParser()  p.feed("<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body>  </html>")  p.close()

运行结果如下：

title   属性值： ('id', 'main')   属性值： ('mouse', '你好') 得到的数据: 我是标题

主要的技术就是继承了HTMLParser类，然后重写了里面的一些方法，来完成自己的业务，从上面的代码里，发现如果想获取某个标签的内容，还是比较麻烦的，当然这是python里面最简单的html解析方式，还有很多其他组件，scrapy等等，里面支持Xpath路径解析，使用起来非常简洁清爽。

解析代码学会之后，我们就可以将使用urllib包，抓取到的数据交给htmlparser解析，从而提取出我们所需要的内容。

以上就是Python 网页解析HTMLParse的实例详解，如有疑问请留言或者到本站社区交流讨论，感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

上一条：
Python 模拟登陆的两种实现方法
下一条：
关于Python中浮点数精度处理的技巧总结

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top