Scrapy的crawlspider模板

Scrapy框架 2019-01-06 1487

crawlspider模板是scrapy提供的一个专用全站爬虫模板，根据url的规则来决定是否解析，十分强大。
1.LinkExtractors链接提取器：
LinkExtractors类的参数：
allow:允许的url。所有满足这个正则表达式的url都会被提取。

deny：禁止的url。所有满足这个正则表达式的url都不会提取

allow_domains:允许的域名。只有在这个里面指定的域名的url才会被提取

deny_domains:禁止的域名。所有在这个里面指定的域名的url都不会被提取

restrict_xpaths:严格的xpath。和allow共同过滤链接

2.Rlue规则类
定义爬虫规则类。
# follow表示爬取到该规则页面时，也有符合该条规则的链接你爬不爬，爬设置为True，不爬就False

# 什么情况下使用callback：如果这个url对应的页面，只是为了获取更多的url，并不需要里面的数据，那么可以不设置callback

主要参数：
link_extractor:一个LinkExtractor对象，用于定义爬取规则
callback：满足这个规则的url，应该要执行哪个回调函数。因为CrawlSpider使用了parse作为回调函数，因此不要覆盖parse作为自己的回调函数

follow：指定根据该规则从response中提取的链接是否需要根进

process_links:从link_extractor中获取到链接后会传递给这个函数，用来过滤不需要爬取的url

 标签：Scrapy框架

已有0条评论

淡淡的忧伤博客