Scrapy分布式笔记

1.settings.py的设置 替换scrapy调度器 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 添加去重的class DUPEFILTER...

Scrapy框架 2019-01-12 939

Scrapy的crawlspider模板

crawlspider模板是scrapy提供的一个专用全站爬虫模板,根据url的规则来决定是否解析,十分强大。 1.LinkExtractors链接提取器: LinkExtractors类的参数...

Scrapy框架 2019-01-06 999

scrapy随机设置user-agent与代理ip

1.随机User-Agent设置 前言:设置User-Agent或者代理都需要使用scrapy的DownloaderMiddleware中的process_request方法。 process_...

Scrapy框架 2019-01-02 1052

Scrapy的Request与Response

# Request对象在我们写爬虫,爬取一页的数据需要重新发送一个请求的时候调用。这个需要传递一些参数,其中比较常见的参数有: # Request中的meta是比如在列表页中,我获取了标题和作者...

Scrapy框架 2018-12-22 1043

scrapy笔记

爬虫的工作流程是: 1.spider.py:用户编写提取网页字段的解析函数,这里会产生request,可以理解为链接 2.经过middleware,到达引擎,发送到scheduler入队,经过引...

Scrapy框架 2018-12-11 1219

Scrapy基本使用

1.创建一个scrapy爬虫项目 进入cmd,进入到你存放项目的文件夹。 使用scrapy startproject myproject创建了一个myproject项目。 创建完成会提示 按照命...

Scrapy框架 2018-11-08 925