们在使用爬虫来抓取网页内容的时候,HTTP异常是必须要注意的一项,所以本文,我们来详细探寻一下HTTP异常处理的相关内容,通过一些具体的实例来分析一下,非常的简单,但是却很实用。先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Pyt...
分类:
移动开发 时间:
2015-08-07 07:02:44
阅读次数:
240
问题:
import urllib.request
import sys
resp=urllib.request.urlopen("http://www.baidu.com")
html=resp.read()
fo=open("test.html","w")
fo.write(html)
fo.close()
Python 保存网页,后出现如下错误
...
分类:
Web程序 时间:
2015-08-06 13:19:21
阅读次数:
174
简单小爬虫#!/usr/bin/envpython#coding:utf-8importurllib2importbs4url=‘http://www.163.com‘content=urllib2.urlopen(url).read()content=content.decode(‘gbk‘)soup=bs4.BeautifulSoup(content)links=soup.select(‘lia[href]‘)result=[]forlinkinlinks:href=link.attrs[‘hr..
分类:
其他好文 时间:
2015-08-04 23:15:28
阅读次数:
230
问题:在Python3.4中 运行如下代码报错,找不到urllib2
import urllib2
response = urllib2.urlopen('http://www.baidu.com/')
print response.read()
解决办法:
import urllib.request
resp=urllib.request.urlopen('http...
分类:
编程语言 时间:
2015-08-04 17:15:14
阅读次数:
295
图片处理如何处理图片
拿到网页
使用正则表达式匹配
使用urlretrieve下载图片
import re
import urllib2
import urllibdef getContext(url):
'''
获取html
'''
html = urllib2.urlopen(url) return html.read()def getPicture(htm...
分类:
其他好文 时间:
2015-08-02 18:21:29
阅读次数:
100
urllib2模块标签(空格分隔): python之前的存在的问题import urllib2url = 'http://blog.csdn.net/weiyongxuan/article/details/47193245'page = urllib2.urlopen(url)'''
报错
urllib2.HTTPError: HTTP Error 403: Forbidden使用urllib2模...
分类:
Web程序 时间:
2015-08-02 16:49:39
阅读次数:
165
Python简单的爬虫最简单的爬虫# -*- coding : utf-8 -*-
import urlliburl = 'http://www.baidu.com'html = urllib.urlopen(url)print html.read()也可以打印出网页的其他信息#获取状态码
print html.getcode()#获取传入的参数
print html.geturl()#获取网页的h...
分类:
编程语言 时间:
2015-08-01 22:05:27
阅读次数:
144
使用Pythonfind函数和urllib下载图片。#!/usr/bin/envpython
importtime
importurllib
i=0
url=[‘‘]*10
name=[‘‘]*10
con=urllib.urlopen(‘http://www.ithome.com/html/bizhi/164396.htm‘).read()
src=con.find(r‘/newsuploadfiles‘)
end=con.find(r‘.jpg‘,src)
name[0]=con[sr..
分类:
编程语言 时间:
2015-07-30 23:39:28
阅读次数:
206
一.urllib模块介绍importurllib先看个小例子,打印结果为一个socket连接示例一:importurllib
url=r‘http://www.baidu.com‘
fp=urllib.urlopen(url)
printfp>>><addinfourlat43317888whosefp=<socket._fileobjectobjectat0x02947530>>>>>1.基本..
分类:
编程语言 时间:
2015-07-28 06:46:56
阅读次数:
178
使用Python编写的图片爬虫作业: 1 #coding=utf-8 2 3 import urllib 4 import re 5 6 def getPage(url): 7 #urllib.urlopen(url[, data[, proxies]]) : 8 #创建一个表示...
分类:
编程语言 时间:
2015-07-26 11:05:31
阅读次数:
124