最近,在阅读Scrapy的源码的时候,看到有关list方法append和extend的使用。初一看,还是有些迷糊的。那就好好找点资料来辨析一下吧。 stackoverflow中的回答是这样的: append:在尾部追加对象(Appends object at end) C:\Users\sniper...
分类:
移动开发 时间:
2015-06-16 10:46:07
阅读次数:
228
网上的安装教程太多了,现在记录下自己的安装历程:
之前安装的时候是参考一篇网帖:Scrapy安装介绍
里面给的链接都已经比较旧了,后来使用发现一些功能没有,无奈打算重新安装个新版的。
首先,我之前使用的python一直是2.7.3,发现pip功能无法直接使用,也不想单独安装了,所以打算直接升级2.7.10,好在之前安装的模块也不多,大不了重新装一遍也很快。装完了2.7.10之后发现之前的模块...
前面小试了一下scrapy抓取博客园的博客(您可在此查看scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据),但是前面抓取的数据时保存为json格式的文本文件中的。这很显然不满足我们日常的实际应用,接下来看下如何将抓取的内容保存在常见的mysql数据库中吧。 说明:所有的操...
分类:
数据库 时间:
2015-06-12 20:49:18
阅读次数:
181
1.安装 lxml (使用xpath)2.安装 zope.interface3.安装 twisted 出错先安装sudo apt-get install build-essential python-dev4.安装 pyOpenSSL5.安装 pywin326.安装Scrapy windows需要安...
分类:
其他好文 时间:
2015-06-12 16:43:11
阅读次数:
120
在安装完scrapy以后,相信大家都会跃跃欲试想定制一个自己的爬虫吧?我也不例外,下面详细记录一下定制一个scrapy工程都需要哪些步骤。如果你还没有安装好scrapy,又或者为scrapy的安装感到头疼和不知所措,可以参考下前面的文章安装python爬虫scrapy踩过的那些坑和编程外的思考。.....
分类:
Web程序 时间:
2015-06-10 20:59:51
阅读次数:
212
在利用pycharm安装scrapy包是遇到了挺多的问题。在折腾了差不多折腾了两个小时之后总算是安装好了。期间各种谷歌和百度,发现所有的教程都是利用命令行窗口安装的。发现安装scrapy需要的包真是多的要死啊。没有专门针对pycharm安装的。因此这里将自己的安装经验分享一下,希望能帮助一些py.....
分类:
其他好文 时间:
2015-06-10 18:38:58
阅读次数:
516
下面是些处理这些站点的建议(tips):使用user agent池,轮流选择之一来作为user agent。池中包含常见的浏览器的user agent(google一下一大堆)禁止cookies(参考COOKIES_ENABLED),有些站点会使用cookies来发现爬虫的轨迹。设置下载延迟(2或更...
分类:
其他好文 时间:
2015-06-10 12:10:42
阅读次数:
130
这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬虫的比较发现开源爬虫scrapy比较好用。但是以前一直用的java和php,对python不熟悉,于是花一天时间粗略了解了一遍python的基础知识。于是就开干了,没想到的配置一个运行环境就花了我一天时间。.....
分类:
编程语言 时间:
2015-06-06 22:05:10
阅读次数:
665
http://stackoverflow.com/questions/21788939/how-to-use-pycharm-to-debug-scrapy-projects
分类:
其他好文 时间:
2015-06-06 00:12:30
阅读次数:
321
1 # -*- coding: utf-8 -*- 2 3 # Define here the models for your scraped items 4 # 5 # See documentation in: 6 # http://doc.scrapy.org/en/latest/topi.....
分类:
移动开发 时间:
2015-06-05 11:45:30
阅读次数:
187