Scrapy的简单使用教程-侯体宗的博客

Scrapy的简单使用教程
Python / 管理员发布于 6年前 293

在这篇入门教程中，我们假定你已经安装了python。如果你还没有安装，那么请参考安装指南。

首先第一步：进入开发环境，workon article_spider

进入这个环境：

安装Scrapy，在安装的过程中出现了一些错误：通常这些错误都是部分文件没有安装导致的，因为大学时经常出现，所以对解决这种问题，很实在，直接到http://www.lfd.uci.edu/~gohlke/pythonlibs/这个网站下载对应的文件，下载后用pip安装，具体过程不在赘述。

然后进入工程目录，并打开我们的新创建的虚拟环境：

新建scrapy工程：ArticleSpider

创建好工程框架：在pycharm中导入

scrapy.cfg: 项目的配置文件。
ArticleSpeder/: 该项目的python模块。之后您将在此加入代码。
ArticleSpeder/items.py: 项目中的item文件。
ArticleSpeder/pipelines.py: 项目中的pipelines文件。
ArticleSpeder/settings.py: 项目的设置文件。
ArticleSpeder/spiders/: 放置spider代码的目录。

回到dos窗口用basic创建模板

上面pycharm的截图中已经创建好了：

为了今后更好的开发，创建一个用于debug的类main.py

from scrapy.cmdline import executeimport sysimport osprint(os.path.dirname(os.path.abspath(__file__)))sys.path.append(os.path.dirname(os.path.abspath(__file__)))execute(["scrapy","crawl","jobbole"])

这是代码内容

import sys 为了设置工程目录，调用命令才会生效

里面的路径最好不要写死：可以通过os获取路径，更加灵活

execute用来执行目标程序的

jobbole.py的内容

class JobboleSpider(scrapy.Spider):name = 'jobbole'allowed_domains = ['blog.jobbole.com']start_urls = ['http://blog.jobbole.com/110287']def parse(self, response):re_selector = response.xpath("/html/body/div[1]/div[3]/div[1]/div[1]/h1")re2_selector = response.xpath('//*[@id="post-110287"]/div[1]/h1')title = response.xpath('//div[@class="entry-header"]/h1/text()')create_date = response.xpath("")#//*[@id="112706votetotal"]dian_zan = int(response.xpath("//span[contains(@class,'vote-post-up ')]/h10/text()").extract()[0])pass

通过xpath技术获取对应文章的一些字段信息，包括标题，时间，评论数，点赞数等，因为比较简单所以不在赘述

写到这儿，大家也知道每次在pycharm里面debug和麻烦，因为scrapy比较大，所以这时候我们可以使用Scrapy shell来调试

标记部分是目标网站的地址：现在我们可以更加愉悦的进行调试了。

今天scrapy的初体验就到这里了

上一条：
PyQt5利用QPainter绘制各种图形的实例
下一条：
Scrapy爬虫实例讲解_校花网

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top