Scrapy的crawlspider模板

Scrapy框架 2019-01-06 1005

crawlspider模板是scrapy提供的一个专用全站爬虫模板,根据url的规则来决定是否解析,十分强大。
1.LinkExtractors链接提取器:
LinkExtractors类的参数:
allow:允许的url。所有满足这个正则表达式的url都会被提取。

deny:禁止的url。所有满足这个正则表达式的url都不会提取

allow_domains:允许的域名。只有在这个里面指定的域名的url才会被提取

deny_domains:禁止的域名。所有在这个里面指定的域名的url都不会被提取

restrict_xpaths:严格的xpath。和allow共同过滤链接

2.Rlue规则类
定义爬虫规则类。
# follow表示爬取到该规则页面时,也有符合该条规则的链接你爬不爬,爬设置为True,不爬就False

# 什么情况下使用callback:如果这个url对应的页面,只是为了获取更多的url,并不需要里面的数据,那么可以不设置callback

主要参数:
link_extractor:一个LinkExtractor对象,用于定义爬取规则
callback:满足这个规则的url,应该要执行哪个回调函数。因为CrawlSpider使用了parse作为回调函数,因此不要覆盖parse作为自己的回调函数

follow:指定根据该规则从response中提取的链接是否需要根进

process_links:从link_extractor中获取到链接后会传递给这个函数,用来过滤不需要爬取的url

 

标签:Scrapy框架

文章评论

评论列表

已有0条评论