python构建基础的爬虫教学-侯体宗的博客

python构建基础的爬虫教学
Python / 管理员发布于 8年前 203

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库：包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、

beautifulsoup库：通过定位HTML标签格式化和组织复杂的网络信息，用python对象展现XML结构信息。不是标准库，可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象，然后打开网址，使用BeautifulSoup对网页内容进行读取。

2、使用print输出打开的网址的内容。

3、从输出中可以看出内容的结构为：

4、输出内容中的html-body-h1的内容可使用四种语句。

5、

BeautifulSoup可提取HTML、XML文件的任意节点的信息，只需要目标信息旁边或附近有标记。

1、Error

在运行代码时，经常会出现错误，看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误：网页在服务器上不存在或服务器不存在

。

3、网页在服务器上不存在会出现HTTPError，可使用try语句进行处理。

当程序返回HTTPError错误代码时，会显示错误内容。

4、服务器不存在时，urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None，调用不存在的标签下的子标签，就会出现AttributeError错误。

总结：以上就是关于python构建基础的爬虫的基础步骤内容，感谢大家的阅读和的支持。

上一条：
python3爬虫怎样构建请求header
下一条：
python爬虫获取新浪新闻教学

0条评论 (评论内容有缓存机制,请悉知!)

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top