【urllib and urllib2】 这是两个python的网络模块 内置的 提供很好的网络访问的功能。 ...
分类:
编程语言 时间:
2017-07-04 20:23:36
阅读次数:
137
源码:链接:http://pan.baidu.com/s/1dEK82hb 密码:9flo创建项目 scrapy startproject tutorial爬取 scrapy crawl dmoz爬取并保存为json格式 scrapy ... ...
分类:
编程语言 时间:
2017-05-22 15:08:44
阅读次数:
172
作用:用于读取来自网上(服务器上)的数据基本方法:urllib.request.urlopen(url,data=None,[]timeout]*,cafile=None,cadefault=False,context=None)url:需要打开的网址data:Post提交的数据timeout:设置... ...
分类:
编程语言 时间:
2017-05-21 23:26:32
阅读次数:
343
下载集成包链接:http://pan.baidu.com/s/1pKD2zBP 密码:f75b因为没有支持python3的Scrapy,所以这里采用python2.7.9安装步骤:1.安装python2.7(默认安装即可)2.打开“运行”,输入cmd.执行以下命令设置环境变量 C:\Python27... ...
分类:
编程语言 时间:
2017-05-21 23:21:39
阅读次数:
238
正则表达式search //匹配第一次遇到符合规则的匹配IP地址import rere.search(r'(([01]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])\.){3}([01]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])','192.168.1.1')... ...
分类:
编程语言 时间:
2017-05-21 23:18:29
阅读次数:
368
1. 廖雪峰Python3教程 2. 汪海的实验室:Python爬虫入门教程 3. 静觅: Python爬虫学习系列教程 ...
分类:
编程语言 时间:
2017-05-13 11:25:58
阅读次数:
145
爬虫写得多了,就感到有些乏。这个乏,指的并不是乏味,而是更广一些的,浑身使不上劲的SIW 乏。从务实的角度看,现有的答案已经回答地非常全面,无可指摘了。相信大多数人的爬虫入门都和我类似,先从urllib2入手,写一个最简陋的get,面对一大堆源码无所 适从。接着开始接触传说中给人用的requests ...
分类:
其他好文 时间:
2017-04-20 10:05:15
阅读次数:
197
(以下是崔庆才的博客粘的) 首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 根据我的经验,要学习Python爬虫,我们要学习的共有以下几点: Python基础知识 Python中url ...
分类:
编程语言 时间:
2017-04-17 14:07:38
阅读次数:
206
1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张 ...
分类:
编程语言 时间:
2017-04-17 14:06:22
阅读次数:
215
在爬虫系列文章 优雅的HTTP库requests 中介绍了 requests 的使用方式,这一次我们用 requests 构建一个知乎 API,功能包括:私信发送、文章点赞、用户关注等,因为任何涉及用户操作的功能都需要登录后才操作,所以在阅读这篇文章前建议先了解Python模拟知乎登录 。现在假设你... ...