为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他 ...
分类:
编程语言 时间:
2017-08-07 15:22:04
阅读次数:
224
import urllib2 import urllib import cookielib import json import time from pyExcelerator import * w = Workbook() #创建一个工作簿 ws = w.add_sheet('Hey, Xueqi... ...
分类:
其他好文 时间:
2017-08-06 12:36:37
阅读次数:
252
Python实现抓取http://www.cssmoban.com/cssthemes站点的模版并下载 实现代码 # -*- coding: utf-8 -*- import urlparse import urllib2 import re import os import os.path URL ...
分类:
编程语言 时间:
2017-08-06 11:03:36
阅读次数:
147
1、urlopen(url, data, timeout) 2、Request: ...
分类:
Web程序 时间:
2017-08-03 11:16:24
阅读次数:
171
网上大多爬虫仍旧是python2的urllib2写的,不过,坚持用python3(3.5以上版本可以使用异步I/O) 相信有不少人爬虫第一次爬的是Mm图,网上很多爬虫的视频教程也是爬mm图,看了某人的视频后,把这个爬虫给完成了 因为爬取的内容涉及个人隐私,所以,爬取的代码及网址不在此公布,不过介绍一 ...
分类:
编程语言 时间:
2017-08-01 11:04:51
阅读次数:
209
#-*- coding:utf-8 -*- import urllib2 import re url = 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4' request = urllib2.Request(url) urlopen = urllib2... ...
分类:
编程语言 时间:
2017-07-31 11:46:39
阅读次数:
176
1.urllib2修改header: (1)在使用网络爬虫时,有一些站点不喜欢被程序访问(非人为访问),会检查连接者的“身份证”;默认情况下,urllib2把自己的版本号Python-urllib2/x.y作为自己的“身份证号码”来通过检查,这个身份证号码可能会让站点有点迷惑,或者干脆不工作 (2) ...
分类:
编程语言 时间:
2017-07-24 21:33:21
阅读次数:
255
# -*- coding: utf-8 -*- import urllib2 #urllib2 默认的User-Agent是 Python-urllib/2.7 #User-Agent是爬虫和发爬虫斗争的第一步 ua_headers = { "User-Agent":"Mozilla/5.0 (Wi... ...
分类:
Web程序 时间:
2017-07-23 22:31:02
阅读次数:
228
一 初见网络爬虫 都是使用的python3。 一个简单的例子: 在 Python 2.x 里的 urllib2 库, 在 Python 3.x 里,urllib2 改名为 urllib,被分成一些子模块:urllib.request、 urllib.parse 和 urllib.error。 二 B ...
分类:
编程语言 时间:
2017-07-23 18:12:54
阅读次数:
225
下载地址 Sublime下载地址 安装 Package Control 在Sublime中,按Ctrl+~打开控制台,输入: Sublime Text2 import urllib2,os; pf='Package Control.sublime-package'; ipp=sublime.inst ...
分类:
其他好文 时间:
2017-07-16 18:31:10
阅读次数:
253