Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码-侯体宗的博客

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码
Python / 管理员发布于 7年前 312

大家可以在Github上clone全部源码。

Github：https://github.com/williamzxl/Scrapy_CrawlMeiziTu

Scrapy官方文档：http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

基本上按照文档的流程走一遍就基本会用了。

Step1：

在开始爬取之前，必须创建一个新的Scrapy项目。进入打算存储代码的目录中，运行下列命令:

scrapy startproject CrawlMeiziTu

该命令将会创建包含下列内容的 tutorial 目录:

CrawlMeiziTu/ scrapy.cfg CrawlMeiziTu/  __init__.py  items.py  pipelines.py  settings.py　　　　 middlewares.py  spiders/   __init__.py   ...cd CrawlMeiziTuscrapy genspider Meizitu http://www.meizitu.com/a/list_1_1.html

该命令将会创建包含下列内容的 tutorial 目录:

CrawlMeiziTu/ scrapy.cfg CrawlMeiziTu/　　　　 __init__.py  items.py  pipelines.py  settings.py　　　　 middlewares.py  spiders/　　　　　　　Meizitu.py   __init__.py   ...

我们主要编辑的就如下图箭头所示：

main.py是后来加上的，加了两条命令，

from scrapy import cmdlinecmdline.execute("scrapy crawl Meizitu".split())

主要为了方便运行。

Step2：编辑Settings,如下图所示

 BOT_NAME = 'CrawlMeiziTu'  SPIDER_MODULES = ['CrawlMeiziTu.spiders'] NEWSPIDER_MODULE = 'CrawlMeiziTu.spiders' ITEM_PIPELINES = { 'CrawlMeiziTu.pipelines.CrawlmeizituPipeline': 300, } IMAGES_STORE = 'D://pic2' DOWNLOAD_DELAY = 0.3 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' ROBOTSTXT_OBEY = True

主要设置USER_AGENT,下载路径，下载延迟时间

Step3:编辑Items.

Items主要用来存取通过Spider程序抓取的信息。由于我们爬取妹子图，所以要抓取每张图片的名字，图片的连接，标签等等

# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# http://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass CrawlmeizituItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() #title为文件夹名字 title = scrapy.Field() url = scrapy.Field() tags = scrapy.Field() #图片的连接 src = scrapy.Field() #alt为图片名字 alt = scrapy.Field()

Step4:编辑Pipelines

Pipelines主要对items里面获取的信息进行处理。比如说根据title创建文件夹或者图片的名字，根据图片链接下载图片。

# -*- coding: utf-8 -*-import osimport requestsfrom CrawlMeiziTu.settings import IMAGES_STOREclass CrawlmeizituPipeline(object): def process_item(self, item, spider):  fold_name = "".join(item['title'])  header = {   'USER-Agent': 'User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',   'Cookie': 'b963ef2d97e050aaf90fd5fab8e78633',   #需要查看图片的cookie信息，否则下载的图片无法查看  }  images = []  # 所有图片放在一个文件夹下  dir_path = '{}'.format(IMAGES_STORE)  if not os.path.exists(dir_path) and len(item['src']) != 0:   os.mkdir(dir_path)  if len(item['src']) == 0:   with open('..//check.txt', 'a+') as fp:    fp.write("".join(item['title']) + ":" + "".join(item['url']))    fp.write("\n")  for jpg_url, name, num in zip(item['src'], item['alt'],range(0,100)):   file_name = name + str(num)   file_path = '{}//{}'.format(dir_path, file_name)   images.append(file_path)   if os.path.exists(file_path) or os.path.exists(file_name):    continue   with open('{}//{}.jpg'.format(dir_path, file_name), 'wb') as f:    req = requests.get(jpg_url, headers=header)    f.write(req.content)  return item

Step5:编辑Meizitu的主程序。

最重要的主程序：

# -*- coding: utf-8 -*-import scrapyfrom CrawlMeiziTu.items import CrawlmeizituItem#from CrawlMeiziTu.items import CrawlmeizituItemPageimport timeclass MeizituSpider(scrapy.Spider): name = "Meizitu" #allowed_domains = ["meizitu.com/"] start_urls = [] last_url = [] with open('..//url.txt', 'r') as fp:  crawl_urls = fp.readlines()  for start_url in crawl_urls:   last_url.append(start_url.strip('\n')) start_urls.append("".join(last_url[-1])) def parse(self, response):  selector = scrapy.Selector(response)  #item = CrawlmeizituItemPage()  next_pages = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/@href').extract()  next_pages_text = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/text()').extract()  all_urls = []  if '下一页' in next_pages_text:   next_url = "http://www.meizitu.com/a/{}".format(next_pages[-2])   with open('..//url.txt', 'a+') as fp:    fp.write('\n')    fp.write(next_url)    fp.write("\n")   request = scrapy.http.Request(next_url, callback=self.parse)   time.sleep(2)   yield request  all_info = selector.xpath('//h3[@class="tit"]/a')  #读取每个图片夹的连接  for info in all_info:   links = info.xpath('//h3[@class="tit"]/a/@href').extract()  for link in links:   request = scrapy.http.Request(link, callback=self.parse_item)   time.sleep(1)   yield request  # next_link = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/@href').extract()  # next_link_text = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/text()').extract()  # if '下一页' in next_link_text:  #  nextPage = "http://www.meizitu.com/a/{}".format(next_link[-2])  #  item['page_url'] = nextPage  #  yield item   #抓取每个文件夹的信息 def parse_item(self, response):   item = CrawlmeizituItem()   selector = scrapy.Selector(response)   image_title = selector.xpath('//h2/a/text()').extract()   image_url = selector.xpath('//h2/a/@href').extract()   image_tags = selector.xpath('//div[@class="metaRight"]/p/text()').extract()   if selector.xpath('//*[@id="picture"]/p/img/@src').extract():   image_src = selector.xpath('//*[@id="picture"]/p/img/@src').extract()   else:   image_src = selector.xpath('//*[@id="maincontent"]/div/p/img/@src').extract()   if selector.xpath('//*[@id="picture"]/p/img/@alt').extract():    pic_name = selector.xpath('//*[@id="picture"]/p/img/@alt').extract()   else:   pic_name = selector.xpath('//*[@id="maincontent"]/div/p/img/@alt').extract()   #//*[@id="maincontent"]/div/p/img/@alt   item['title'] = image_title   item['url'] = image_url   item['tags'] = image_tags   item['src'] = image_src   item['alt'] = pic_name   print(item)   time.sleep(1)   yield item

总结

以上所述是小编给大家介绍的Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码，希望对大家有所帮助，如果大家啊有任何疑问欢迎给我留言，小编会及时回复大家的！

上一条：
浅析python实现scrapy定时执行爬虫
下一条：
Python爬虫框架Scrapy实例代码

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

近期文章
在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)
智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(95个评论)
gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)

近期评论
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..
博主在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了，可以看看近期评论的其他文章..
1111 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论网站不能打开，博主百忙中能否发个APP下载链接，佛跳墙或极光..

Top