以下是自己总结的设置 IP 代理的几种方法,仅供参考 方法一: requests发送请求添加代理 proxies = {'http':'代理 IP:端口号'} 实例: 方法二: 调用 ProxyHandler 添加 代理 实例: 方法三: 使用 client 建立连接,添加代理 IP,port 实例 ...
分类:
其他好文 时间:
2018-09-07 13:57:29
阅读次数:
166
from urllib import request,parse def get(url,headers=None): return urlrequests(url,headers=headers) def post(url,form,headers=None): return urlrequest... ...
分类:
其他好文 时间:
2018-09-06 22:49:13
阅读次数:
161
Python爬虫教程 09 error模块 今天的主角是error,爬取的时候,很容易出现错,所以我们要在代码里做一些,常见错误的处,关于urllib.error URLError URLError 产生的原因: 1.无网络连接 2.服务器连接失败 3.找不到指定的服务器 4.URLError是OS ...
分类:
编程语言 时间:
2018-09-06 20:36:00
阅读次数:
175
1 #!/usr/bin/env python 2 3 from urllib import request 4 import gevent 5 from gevent import monkey 6 import time 7 8 monkey.patch_all() # 把当前程序所有的IO操作... ...
分类:
编程语言 时间:
2018-09-04 16:55:32
阅读次数:
191
一、爬虫流程: 1、发起请求 使用http库向目标站点发起请求,即发送一个Request Request包含:请求头、请求体等 Request模块缺陷:不能执行JS 和CSS 代码 2、获取响应内容 如果服务器能正常响应,则会得到一个Response Response包含:html,json,图片, ...
分类:
编程语言 时间:
2018-09-04 13:36:34
阅读次数:
474
#四个步骤 1.查看crawl内容的源码格式 crawl的内容可以是 url(链接),文字,图片,视频 2.请求网页源码 (可能要设置)代理,限速,cookie 3.匹配 用正则表达式匹配 4.保存数据 文件操作 #两个基本工具(库) 1.urllib 2.requests #使用reuests库的 ...
分类:
编程语言 时间:
2018-09-03 19:59:57
阅读次数:
161
Python爬虫之提取Bing搜索的背景图片并设置为Windows的电脑桌面 ...
分类:
编程语言 时间:
2018-09-02 16:12:26
阅读次数:
200
urllib模块中的方法 1.urllib.urlopen(url[,data[,proxies]]) 打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作。本例试着打开google urlopen返回对象提供方法: - read() , readline() ,readlines ...
分类:
编程语言 时间:
2018-09-01 12:26:21
阅读次数:
115
``` !/usr/bin/python3 coding: UTF 8 import requests import time import gzip import urllib import json import hashlib import base64 def audio_dictation ...
分类:
编程语言 时间:
2018-08-30 11:10:52
阅读次数:
179
Python常用库的安装 urllib、re 这两个库是Python的内置库,直接使用方法import导入即可。 requests 这个库是请求的库。我们需要使用执行文件pip3来进行安装。文件处于C:\Python36\Scripts下,我们可以先将此路径设为环境变量。在命令行中输入pip3 in ...
分类:
编程语言 时间:
2018-08-29 21:27:05
阅读次数:
339