crawlspider模板是scrapy提供的一个专用全站爬虫模板,根据url的规则来决定是否解析,十分强大。
1.LinkExtractors链接提取器:
LinkExtractors类的参数:
allow:允许的url。所有满足这个正则表达式的url都会被提取。
deny:禁止的url。所有满足这个正则表达式的url都不会提取
allow_domains:允许的域名。只有在这个里面指定的域名的url才会被提取
deny_domains:禁止的域名。所有在这个里面指定的域名的url都不会被提取
restrict_xpaths:严格的xpath。和allow共同过滤链接
2.Rlue规则类
定义爬虫规则类。
# follow表示爬取到该规则页面时,也有符合该条规则的链接你爬不爬,爬设置为True,不爬就False
# 什么情况下使用callback:如果这个url对应的页面,只是为了获取更多的url,并不需要里面的数据,那么可以不设置callback
主要参数:
link_extractor:一个LinkExtractor对象,用于定义爬取规则
callback:满足这个规则的url,应该要执行哪个回调函数。因为CrawlSpider使用了parse作为回调函数,因此不要覆盖parse作为自己的回调函数
follow:指定根据该规则从response中提取的链接是否需要根进
process_links:从link_extractor中获取到链接后会传递给这个函数,用来过滤不需要爬取的url
评论列表
已有0条评论