Scrapy的crawlspider模板

crawlspider模板是scrapy提供的一个专用全站爬虫模板,根据url的规则来决定是否解析,十分强大。 1.LinkExtractors链接提取器: LinkExtractors类的参数...

Scrapy框架 2019-01-06 1002

scrapy随机设置user-agent与代理ip

1.随机User-Agent设置 前言:设置User-Agent或者代理都需要使用scrapy的DownloaderMiddleware中的process_request方法。 process_...

Scrapy框架 2019-01-02 1055

读写csv文件

读取csv文件 import csv with open('test.csv', 'r', encoding='utf-8')as f: # reader是一个迭代器 reader = csv....

Python 2018-12-30 960

python操作mysql与mongodb

import pymysql conn = pymysql.connect(host='localhost', user='root', password='huyu1680456489', p...

Python 2018-12-29 890

pycharm调试远程服务器项目

最近在学习的项目中需要支付宝的付款功能,其中付款后的return_url无法在本地环境中重现,尽管看到有教程说改system中的hosts文件就可以了,但实际操作总是无法成功,刚好有台服务器就试...

易用工具 2018-12-26 1014

Scrapy的Request与Response

# Request对象在我们写爬虫,爬取一页的数据需要重新发送一个请求的时候调用。这个需要传递一些参数,其中比较常见的参数有: # Request中的meta是比如在列表页中,我获取了标题和作者...

Scrapy框架 2018-12-22 1045

爬虫使用cookie

1.urllib库 from urllib import request from urllib import parse from http.cookiejar import CookieJa...

网络爬虫 2018-12-18 1898

常见算法

二分查找顾名思义就是,查一半,符合就接着查,不符合就丢弃。 def search(data, item): low = 0 # 最小的索引 hight = len(data) - 1 # dat...

Python 2018-12-17 862

序列化与反序列化

序列化:数据类型转为字符串 反序列化:字符串转为数据类型 1.json import json # json dumps序列化 # json loads反序列化 # 数字,字符串,列表,字典,[...

Python 2018-12-13 1014