前言:由于项目需求做的接口测试有上传文件这一要求,在查资料时候发现用requests来做上传文件很简单,所以下了这个库来完成。后续有时候会看看能不能用传统地urllib2来做。首先你要有个requests:https://github.com/kennethreitz/requests然后把它imp...
分类:
编程语言 时间:
2015-04-27 18:06:26
阅读次数:
148
python 处理抓取网页乱码问题一招鲜相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找是否包含指定的信息。在html = urllib2.open(url).read() 时,打印到控制台始终出现乱码。一般的解决办法就是html.decode('u...
分类:
编程语言 时间:
2015-04-27 14:52:22
阅读次数:
175
通过BeautifulSoup来登陆人人网。可以通过info = {'email':'','password':''}进行账号密码的初始化,一个BeautifulSoup的简单应用,过一阶段会写一个关于BeautifulSoup框架使用的小手册,欢迎大家关注啊,求各路读者大大多加指导。
#-*- coding:utf-8 -*-
import urllib
import urllib2
impo...
分类:
编程语言 时间:
2015-04-27 09:51:13
阅读次数:
133
1 import urllib22 url = u"http://www.baidu.com/wd=测试"3 urllib2.urlopen(url.encode('utf-8')).read()对url进行encode编码
分类:
Web程序 时间:
2015-04-26 15:04:13
阅读次数:
149
为了练手,使用爬虫爬一个“你懂得”图床的,使用的是urlretrieve函数,不但速度慢,还总是会报错,不是open的timeout就是上面提到的socket error。在网上找了许多办法诸如在urllib2.Request.urlopen().read()后需要调用close()关闭等方法并未奏效。
由于不想麻烦scrapy等库,所以发现了个简单粗暴的办法:
直接使用urllib自带的ope...
分类:
编程语言 时间:
2015-04-26 13:54:36
阅读次数:
295
说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制#!/usr/bin/env python
#! -*- coding: utf-8 -*-
#图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif" style="width:460px"
import urllib,urllib2
i...
分类:
编程语言 时间:
2015-04-26 13:53:49
阅读次数:
160
这个问题主要是没有headers,加入一些内容就可以了示例:# -*- coding: UTF-8 -*-import urllib2site= "http://www.nseindia.com/live_market/dynaContent/live_watch/get_quote/getHist...
分类:
Web程序 时间:
2015-04-25 22:43:59
阅读次数:
223
前面介绍了 urllib 模块,以及它常用的 urlopen() 和 urlretrieve()函数的使用介绍。当然 urllib 还有一些其它很有用的辅助方法,比如对 url 进行编码、解码等等。辅助方法:1. urllib.quote(string[,safe]) : 对字符串进行编码,参数sa...
分类:
编程语言 时间:
2015-04-24 16:11:11
阅读次数:
137
Python标准库中有许多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 urllib和urllib2 这个 HTTP 客户端库。这里总结了一些 urllib和urlib2 库的使用细节。Python urllib 库提供了一个从指定的 URL 地址获取网页数据,然后对其...
分类:
编程语言 时间:
2015-04-24 14:05:03
阅读次数:
193
网上好多抓取贴吧的小爬虫都失效了,原因是百度贴吧的编码格式变了,或者是html代码变了,像这种简单的读取源代码的爬虫,只要网页源代码改变之后就得重新修改。
请诸位大牛指点。# -*- coding:utf8 -*-
"""
程序就是读取网页的源代码,如果想获取相应的内容就找到其特定的格式,再利用正则表达式来获取。
"""
import string
import urllib2
import r...
分类:
编程语言 时间:
2015-04-24 09:06:46
阅读次数:
177