1、安装python (我用的是2.7版本的) 2、安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 (提示,能下载源码安装的就避免用pip install **) 安装过程中遇到python扩展问题”u ...
分类:
Web程序 时间:
2016-04-21 11:48:02
阅读次数:
279
由上一节中爬虫程序已经在scrapy中定义完成,我们准备生成app。 目前生成app的软件颇多,这里我们需要以数据库驱动,选择了appery.io。 1. 生成数据库 注册完成之后,先在database选项卡中添加一行新用户,名为root。随后添加新的数据库名为scrapy和新的collection ...
分类:
移动开发 时间:
2016-04-20 13:25:48
阅读次数:
168
先记录下我用scrapy做的一个小例子。 使用的软件版本:python 2.7.11, scrapy 1.0.5 1. Scrapy通常所使用操作过程:UR2IM 即URL, Request, Response, Items, More URLs。 可以用下面这张图简单的解释: 从最初的一个URL发 ...
分类:
移动开发 时间:
2016-04-20 01:52:58
阅读次数:
335
自己用Python脚本写爬虫有一段时日了,也抓了不少网页,有的网页信息两多,一个脚本用exe跑了两个多月,数据还在进行中。但是总觉得这样抓效率有点低,问题也是多多的,很早就知道了这个框架好用,今天终于鼓起勇气安装这个了。 在网上找了些文档,按绝安装方法大同小异,就开始安装了。现在将这些比较好的网站给 ...
分类:
编程语言 时间:
2016-04-18 18:59:44
阅读次数:
154
摘要:根据Excel文件配置运行多个爬虫 很多时候,我们都需要为每一个单独的网站编写一个爬虫,但有一些情况是你要爬取的几个网站的唯一不同之处在于Xpath表达式不同,此时要分别为每一个网站编写一个爬虫就显得徒劳了,其实可以只使用一个spider就爬取这些相似的网站。 首先创建一个名为generic的... ...
分类:
其他好文 时间:
2016-04-18 15:17:16
阅读次数:
288
摘要:介绍了使用Scrapy处理JSON API和AJAX页面的方法 有时候,你会发现你要爬取的页面并不存在HTML源码,譬如,在浏览器打开http://localhost:9312/static/,然后右击空白处,选择“查看网页源代码”,如下所示: 就会发现一片空白 留意到红线处指定了一个名为ap... ...
Python3用不了Scrapy! Python3用不了Scrapy! Python3用不了Scrapy! [重要的事情说三遍,据说大神们还在尝试把scrapy移植到python3,特么浪费我半个小时pip scrapy = - =] 先前用正则表达式匹配出符合要求的<img>标签真的超麻烦的,正则 ...
分类:
编程语言 时间:
2016-04-17 06:22:48
阅读次数:
195
摘要:介绍了使用Scrapy进行双向爬取(对付分类信息网站)的方法。 所谓的双向爬取是指以下这种情况,我要对某个生活分类信息的网站进行数据爬取,譬如要爬取租房信息栏目,我在该栏目的索引页看到如下页面,此时我要爬取该索引页中的每个条目的详细信息(纵向爬取),然后在分页器里跳转到下一页(横向爬取),再爬... ...
分类:
其他好文 时间:
2016-04-15 13:36:22
阅读次数:
1153
python2.7与python3.5共存时安装scrapy后,执行scrapy后报错 解决方法 执行完后Scrapy对于Python3就可用了 ...
分类:
编程语言 时间:
2016-04-14 15:37:44
阅读次数:
240
爬虫站,作者写的很用心: 静觅爬虫利器,写的很用心,在此推荐学习 Scrapy中文文档: Scrapy中文文档 简单的爬虫: 爬虫小例 ...
分类:
Web程序 时间:
2016-04-12 17:19:10
阅读次数:
137