闲着没事爬个糗事百科的笑话看看python3中用urllib.request.urlopen()打开糗事百科链接会提示以下错误http.client.RemoteDisconnected:Remoteendclosedconnectionwithoutresponse但是打开别的链接就正常,很奇怪不知道为什么,没办法改用第三方模块requests,也可以用urllib3模..
分类:
编程语言 时间:
2017-01-06 08:09:11
阅读次数:
666
在伴随学习爬虫的过程中学习了解的一些基础库和方法总结扩展 1. urllib 在urllib.request module中定义下面的一些方法 urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadef ...
分类:
编程语言 时间:
2017-01-03 20:49:21
阅读次数:
250
Sublime text 3 中Package Control 的安装与使用方法,英文好可以在这个网址看看, 下面简单的说明一下 : https://packagecontrol.io/installation 1. 打开sublime text3 按下ctrl+~ 把下面的代码粘贴或者分别点击 V ...
分类:
其他好文 时间:
2016-12-31 17:03:37
阅读次数:
198
完成的目标: 输入搜索的商品 以及 淘宝的已评价数目、店铺的商品描述(包括如实描述、服务态度、快递的5.0打分); 按要求,晒选出要求数量的结果,并按“物美价廉算法”排序后输出 思路: 1,利用淘宝搜索'https://s.taobao.com/search?'的价格filter 先进行价格筛选,得 ...
分类:
编程语言 时间:
2016-12-30 23:26:39
阅读次数:
715
爬遍整个域名 六度空间理论:任何两个陌生人之间所间隔的人不会超过六个,也就是说最多通过五个人你可以认识任何一个陌生人。通过维基百科我们能够通过连接从一个人连接到任何一个他想连接到的人。 1. 获取一个界面的所有连接 1 from urllib.request import urlopen 2 fro ...
分类:
编程语言 时间:
2016-12-29 13:16:48
阅读次数:
357
1. 一次简单的网页访问 urllib 是一个标准的python库(意味着不需要安装任何附件的东西来运行这个demo),包含了通过网络请求数据的方法,处理cookies,甚至更改metadata比如headers和用户代理。 urlopen 这个方法用来通过网络访问远程数据,就是发送一个get请求到 ...
分类:
编程语言 时间:
2016-12-27 20:29:17
阅读次数:
181
#!/usr/bin/envpython
#coding:utf-8
importurllib,re
defgetHtml(url):
page=urllib.urlopen(url)
html=page.read()
returnhtml
defgetImage(html):
reg=r‘src="(.+?\.jpg)"‘
imgre=re.compile(reg)
imglist=re.findall(imgre,html)
#returnimglist
x=0
forimgurlinimglist:
..
分类:
其他好文 时间:
2016-12-26 14:17:42
阅读次数:
160
#Author:xuesong li import gevent from gevent import monkey monkey.patch_all() from urllib.request import urlopen import time def pa_web_page(url): pri... ...
分类:
编程语言 时间:
2016-12-22 20:25:26
阅读次数:
209
环境:Ubuntu, Python 2.7 基础知识 这个程序涉及到的知识点有几个,在这里列出来,不详细讲,有疑问的直接百度会有一堆的。 1.urllib2 模块的 request 对像来设置 HTTP 请求,包括抓取的 url,和伪装浏览器的代理。然后就是 urlopen 和 read 方法,都很 ...
分类:
其他好文 时间:
2016-12-21 18:37:42
阅读次数:
237
首先有两个功能需求:第一:获取到要爬的页面html内容;第二:使用正则表达式进行匹配并进行保存到本地。#!/usr/bin/envpython
#encoding:utf-8
importurllib
importre
defgetHtml(url):
‘‘‘获取到url的html内容‘‘‘
page=urllib.urlopen(url)
html=page.read()
returnhtml
html..
分类:
编程语言 时间:
2016-12-14 22:23:36
阅读次数:
250