python写爬虫使用urllib2方法
整理了一部分urllib2的使用细节。
1.Proxy 的设置
urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。
如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理。
新建test14来实现一个简单的代理Demo:
import urllib2
e...
分类:
编程语言 时间:
2015-08-06 09:34:51
阅读次数:
271
example:self.file = www.baidu.com存有baidu站的index.html1 def parseAndGetLinks(self): # parse HTML, save links2 self.parser = HTMLParser(Abst...
分类:
编程语言 时间:
2015-08-05 00:58:41
阅读次数:
156
因为发现爬虫爬取出来的数据如果按照表结构划分后存储,不仅麻烦而且非常大的冗余
干脆试试用这样的非关系数据库来试试存储效果如何。
这里我不打算用redis 进行比较,因为他是内存数据库,他擅长的领域应该是缓存和少量数据的统计归类
(做这个的还有另外一大家伙memcache),redis 以后相配合 其他应用提高效率的。
这里相比较的主要是mongodb和mysql 的性能差,就特定指的是这样...
分类:
数据库 时间:
2015-08-04 22:59:07
阅读次数:
224
import?re
import?urllib
import?urllib.request
from?collections?import?deque
queue?=?deque()#存放待爬取的网址
visited?=?set()#存放爬取过的网址。判断是否爬取过
url?=?"http://news.dbanotes...
分类:
编程语言 时间:
2015-08-04 17:29:13
阅读次数:
128
读取cookies 可以这样:
filename='FileCookieJar.txt'
ckjar = cookielib.MozillaCookieJar()
#这里读取cookie
ckjar.load(filename, ignore_discard=True, ignore_expires=True)
for it...
分类:
编程语言 时间:
2015-08-03 22:51:10
阅读次数:
277
现在,我们已经进入到大数据时代,在对数据进行处理分析时,首要的是需要有数据,而作为数据的一个重要来源则来自于网络爬虫,鉴于Python语言的简洁高效,以及对爬虫技术的大力支持,我们选择利用Python作...
分类:
编程语言 时间:
2015-08-03 17:05:38
阅读次数:
261
众所周知,很多网站都设置了登录之后才能获取查看页面的权利,因此模拟登录成了爬取信息的第一步,这一步成功了,嘿嘿,just do it!
好,废话不多说,直接说重点:
首先,你应该要了解网站登录的流程以及你需要post的信息,以豆瓣为例:
这就是你需要提交的信息了,包括用户名和密码,以及验证码和验证码的ID,看到这可能有人会想我怎么知道验证码的ID,各位放心,在页面加载时就已经到客户端这边来了,也就是说你可以直接从浏览器中看到,是不是很炫酷!
第二步,需要了解一些requests这个库了,因为reque...
分类:
编程语言 时间:
2015-08-03 14:42:55
阅读次数:
183
在爬虫的学习过程中,又一个你必须要掌握的知识点就是正则表达式
爬虫程序需要爬取你需要的东西,那么就对爬取的结果进行筛选,正则表达式就起到这样的作用
如果你学过任何一门语言,相信你都会接触正则表达式。并且正则表达式大多相同。
不管怎样,就像开头说的那样,因为这是爬虫基础教程。所以这篇文章要详细的说一下python的
正则表达式。开始进入正题吧。
正则表达式是一个特殊的字符序列,它能帮助你方...
分类:
编程语言 时间:
2015-08-03 10:25:26
阅读次数:
151
在爬虫的学习过程中,又一个你必须要掌握的知识点就是正则表达式 爬虫程序需要爬取你需要的东西,那么就对爬取的结果进行筛选,正则表达式就起到这样的作用 如果你学过任何一门语言,相信你都会接触正则表达式。并...
分类:
编程语言 时间:
2015-08-03 09:02:05
阅读次数:
504
总体功能:下载百度贴吧网页的图片
这个例子延续了上一个抓取贴吧楼主发布内容的例子,上一个例子是把图片剔除掉了,这边重新做了一个下载图片的demo,比较简单。
代码:
# -*- encoding:utf-8 -*-
# 下载贴吧的图片
import re
import urllib
import urllib2
#下载百度贴吧图片类
class DownloadIm...
分类:
其他好文 时间:
2015-08-02 11:49:21
阅读次数:
213