在做爬虫时请求网页的requests库是必不可少的,我们常常会用到 res = resquests.get(url) 方法,在获取网页的html代码时常常使用res的text属性: html = res.text,在下载图片或文件时常常使用res的content属性: 下面我们来看看 'text' ...
分类:
其他好文 时间:
2019-02-13 13:12:33
阅读次数:
708
1 import requests 2 from bs4 import BeautifulSoup 3 from urllib import request 4 # import threading 5 import gevent 6 from gevent import monkey 7 8 mo... ...
分类:
编程语言 时间:
2019-02-12 13:10:43
阅读次数:
301
用例: 一、request requests headers 》headers设置 requests type:params 》请求参数设置,URL参数(get) requests type:data 》请求参数设置,Body参数,form-data数据格式(post) requests type: ...
分类:
Web程序 时间:
2019-02-12 11:43:20
阅读次数:
348
import requests from selenium import webdriver from selenium.webdriver.common.action_chains import ActionChains from selenium import webdriver from se... ...
分类:
移动开发 时间:
2019-02-11 21:33:22
阅读次数:
464
import requests import time import os import arrow import pandas as pd import pandas.io.formats.excel from collections import OrderedDict import yagma... ...
分类:
编程语言 时间:
2019-02-11 12:12:33
阅读次数:
297
scrapy-redis 简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署。 特征 分布式爬取 可以启动多个spider工程,相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。 分布式数据处理 爬取 ...
分类:
其他好文 时间:
2019-02-11 10:51:42
阅读次数:
220
$_SERVER 是一个包含了诸如头信息(header)、路径(path)、以及脚本位置(script locations)等等信息的数组。这个数组中的项目由 Web 服务器创建。不能保证每个服务器都提供全部项目;服务器可能会忽略一些,或者提供一些没有在这里列举出来的项目。 ...
分类:
Web程序 时间:
2019-02-11 10:45:27
阅读次数:
194
Ajax原理 在用requests抓取页面时,得到的结果可能和浏览器中看到的不一样:在浏览器中可以正常显示的页面数据,但用requests得到的结果并没有。这是因为requests获取的都是原始 HTML文档,而浏览器中页面 则是经过Ajax处理数据后生成的。这些数据可能在HTML文档 ...
分类:
Web程序 时间:
2019-02-10 10:55:45
阅读次数:
235
中间件 下载器中间件 写中间件 配置文件 执行顺序梳理 应用场景 爬虫中间件 写中间件 配置文件 执行流程 1. 第一次启动爬虫文件封装好 request 之后 走 process_start_requests 上传给引擎 2. 引擎将封装好的 request 给调度器 3. 调度器 继续执行 给下 ...
分类:
其他好文 时间:
2019-02-10 09:35:31
阅读次数:
177
Ajax原理 在用requests抓取页面时,得到的结果可能和浏览器中看到的不一样:在浏览器中可以正常显示的页面数据,但用requests得到的结果并没有。这是因为requests获取的都是原始 HTML文档,而浏览器中页面 则是经过Ajax处理数据后生成的。这些数据可能在HTML文档 ...
分类:
Web程序 时间:
2019-02-09 22:30:01
阅读次数:
274