Scrapy基本使用

Scrapy框架 2018-11-08 932

1.创建一个scrapy爬虫项目
进入cmd,进入到你存放项目的文件夹。

使用scrapy startproject myproject创建了一个myproject项目。
创建完成会提示

按照命令进入后使用scrapy genspider douban_movie https://movie.douban.com/top250
创建了一个豆瓣电影爬虫,在myproject目录下可以使用命令
scrapy shell https://movie.douban.com/top250进入shell模式,这对于开发十分有用

在shell模式中添加浏览器请求头:scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36" https://movie.douban.com/top250

使用quit()/exit()都可以退出shell模式
scrapy crawl appstore(爬虫名)来启动爬虫。

如果在爬取过程中发现中文显示为乱码,使用
print(response.body.decode('utf-8'))就可以显示中文了,作用是将response解码为utf-8

标签:Scrapy框架

文章评论

评论列表

已有0条评论