0. 参考 yu961549745/WeiboBlackList 微博批量拉黑 1. 代码 block.py 更新内容:多线程,urllib.request 改为 requests + session 改成从 firefox 或 chrome 读取 cookie 更方便,懒得改了 ...
分类:
其他好文 时间:
2017-10-11 14:09:06
阅读次数:
194
spider.py 1 # -*- coding:utf-8 -*- 2 from urllib import urlencode 3 import requests 4 from requests.exceptions import RequestException 5 import json 6 ...
分类:
Web程序 时间:
2017-10-10 13:22:02
阅读次数:
206
1.设置用户代理 默认情况下,urliib2使用python-urllib、2.7 作为用户代理下载网页内容,其中2.7是python的版本号。为避免一些网站禁封这个默认的用户代理,确保下载更加可靠,我们需要控制用户代理的设定。下面代码对download函数设定了一个名称为 “wswp” 的用户代理 ...
分类:
编程语言 时间:
2017-10-08 15:33:39
阅读次数:
229
# !/usr/bin/python#coding=GBKimport urllib.requestimport re#file=open("F:/python_workspace/爬虫/图片/0.jpg","wb")#url="http://desk.zol.com.cn/2560x1600/"d ...
分类:
其他好文 时间:
2017-10-07 18:50:13
阅读次数:
187
#Author:Mini#!/usr/bin/env pythonimport urllib.requestimport reimport urllib.errorimport threadingheaders=("User-Agent","Mozilla/5.0 (Windows NT 10.0; ...
分类:
Web程序 时间:
2017-10-06 19:03:24
阅读次数:
197
#Author:Mini#!/usr/bin/env pythonimport reimport urllib.requestimport timeimport urllib.errordef use_proxy(proxy_addr,url): try: req=urllib.request.Re ...
分类:
Web程序 时间:
2017-10-06 18:07:52
阅读次数:
221
一直用的是python3.4版本,所以只用了urllib爬数据,然后使用BeautifulSoup做为分析。 1、首先安装BeautifulSoup,执行命令如下: 2、第二步开始写代码,就以我的博客为例,其实代码很简单 不用解释,看看就明白了。 ...
分类:
编程语言 时间:
2017-10-05 15:08:20
阅读次数:
223
一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会会禁止这个IP的访问。所以我们需要设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。在Python中,可以使用urllib2中的Pro ...
分类:
编程语言 时间:
2017-10-04 16:18:34
阅读次数:
164
#Author:Mini#!/usr/bin/env pythonimport urllib.requestimport reimport urllib.errorheaders=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv: ...
分类:
Web程序 时间:
2017-10-04 14:14:40
阅读次数:
214