python爬虫BeautifulSoup快速抓取网站图片
Python  /  管理员 发布于 2年前   1053
本文介绍BeautifulSoup模块的使用方法,以及注意点,帮助大家快速了解和学习BeautifulSoup模块。有兴趣了解爬虫的小伙伴们,赶快学起来吧。关注公众号可获取爬虫教程哦。
第一步:了解需求
在开始写之前,我们需要知道我们要做什么?做爬虫。
抓取什么?抓取网站图片。
在什么地方抓取?图片之家_图片大全_摄影图片为主的国内综合性图片网
大家可以用这个网站练练手,页面也是比较简单的。
第二步:分析网站因素
我们知道我们需要抓取的是那一个网站数据,因此,我们要来分析一下网站是如何提供数据的。
根据分析之后,所有页面似乎都是相同的,那我们选择一个摄影图来为大家做演示。
1、获取列表标题,以及链接
进一步研究页面数据,每一个页面,下方都有一个列表,然后通过列表标题,进入到下一级中。那这个页面我们需要获取列表标题。
2、获取图片列表,以及链接,以及翻页操作
3、获取图片详情,所有图片
再点击继续研究,发现图片还有多张。
分析完成,我们来编写代码。
流程图如下:
第三步:编写代码实现需求
1、导入模块
导入我们需要使用到的所有模块。
2、获取列表标题,以及链接
3、获取分类列表标题,链接,以及翻页。
4、获取详情图片,并保存
知识点总结
学会此文,可掌握知识点。
1、掌握BeautifulSoup
区分find,find_all的用法:find,查找第一个返回字符串,find_all 查找所有,返回列表
区分get,get_text的用法:get获取标签中的属性,get_text获取标签包围的文字。
2、掌握正则,re.findall 的使用
3、掌握字符串切片的方式 str[0,-5] 截取第一个文字,到倒数第5个文字。
4、掌握创建文件夹的方法os.mkdir(name)
5、掌握with open(f,w) as f:的用法
6、掌握requests模块的get请求方法。
123 在
Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..原梓番博客 在
在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..博主 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..1111 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..路人 在
php中使用hyperf框架调用讯飞星火大模型实现国内版chatgpt功能示例中评论 教程很详细,如果加个前端chatgpt对话页面就完美了..Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号