首先,了解一下URL URL的格式由三部分组成: ①第一部分是协议(或称为服务方式)。 ②第二部分是存有该资源的主机IP地址(有时也包括端口号)。 ③第三部分是主机资源的具体地址,如目录和文件名等。 简单的一个程序 import urllib2 response = urllib2.urlopen( ...
分类:
编程语言 时间:
2018-01-10 14:02:42
阅读次数:
164
# coding=gbk import urllib.request import re import os import urllib def getHtml(url): #指定网址获取函数 page = urllib.request.urlopen(url) html = page.read()... ...
分类:
编程语言 时间:
2018-01-08 19:40:48
阅读次数:
174
为了加快学习python3.x于是直接看了许多有实际操作的小项目,查了许多资料后写了这个脚本,这个脚本主要是爬取百度图片'东方幻想乡'的图片,但发现有几个问题: 1.图片会重复两次。 2.图片只有81张,只匹配了fm=27的图片... 下面给出代码: 参考了许多博客和资料,主要有: 1.http:/ ...
分类:
编程语言 时间:
2018-01-06 20:05:14
阅读次数:
220
1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中,我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子,先感受下它的风骚 我们利用了 urlopen方法访问了一个不存在的网址,运行结果如下: ...
分类:
编程语言 时间:
2018-01-06 12:16:52
阅读次数:
172
使用IP代理 ProxyHandler()格式化IP,第一个参数,请求目标可能是http或者https,对应设置build_opener()初始化IPinstall_opener()将代理IP设置成全局,当使用urlopen()请求时自动使用代理IP ip代理池构建一 适合IP存活时间长,稳定性好的 ...
分类:
Web程序 时间:
2018-01-03 11:44:24
阅读次数:
538
import urllib url = "http://www.baidu.com" try: status = urllib.urlopen(url).code print status except: print {'result': 'false', 'msg': 'URL cannot ac... ...
分类:
编程语言 时间:
2018-01-02 23:28:10
阅读次数:
193
一 为何要用装饰器 有的时候写完一段代码,过段时间需要对它进行升级、添加一些新功能,但是如果要直接修改原来的代码会影响其他人的调用,所以就需要一个不修改源代码且不修改原函数的调用方式的东西又能为原函数增添新功能的东西,装饰器就是干这个的。 二 什么是装饰器 三 装饰器的使用 下面是为一个函数添加装饰 ...
分类:
编程语言 时间:
2017-12-28 19:43:58
阅读次数:
180
1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) - url: 需要打开的网址 - data:Post提交的数据 - ...
分类:
编程语言 时间:
2017-12-28 18:22:04
阅读次数:
200
#!/usr/bin/python
import sys
#正则表达式库
import re
import urllib
def getHtml(url):
page = urllib.urlopen(url)
html =&nbs
分类:
编程语言 时间:
2017-12-21 23:10:12
阅读次数:
291
“AttributeError: 'module' object has no attribute 'urlopen'” 原因是Python3里的urllib模块已经发生改变,此处的urllib都应该改成urllib.request。 修改之后再运行,发现又有如下提示: TypeError: can ...
分类:
编程语言 时间:
2017-12-18 19:15:13
阅读次数:
287