1.创建一个scrapy爬虫项目
进入cmd,进入到你存放项目的文件夹。
使用scrapy startproject myproject
创建了一个myproject项目。
创建完成会提示
按照命令进入后使用scrapy genspider douban_movie https://movie.douban.com/top250
创建了一个豆瓣电影爬虫,在myproject目录下可以使用命令
scrapy shell https://movie.douban.com/top250
进入shell模式,这对于开发十分有用
在shell模式中添加浏览器请求头:scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36" https://movie.douban.com/top250
使用quit()/exit()都可以退出shell模式
scrapy crawl appstore(爬虫名)
来启动爬虫。
如果在爬取过程中发现中文显示为乱码,使用
print(response.body.decode('utf-8'))就可以显示中文了,作用是将response解码为utf-8
评论列表
已有0条评论