Item 字段名必须是image_urls即:image_urls = Field()item['image_urls']的类型是一个list。item['image_urls'] = "http://some.jpg" 是不行的。会有如下错误: Traceback (most recent cal...
分类:
其他好文 时间:
2014-11-19 12:12:09
阅读次数:
229
最近看scrappy0.24官方文档看的正心烦的时候,意外发现中文翻译0.24文档,简直是福利呀~ http://scrapy-chs.readthedocs.org/zh_CN/0.24/ ????结合官方文档例子,简单整理一下: import?scrapy
from...
分类:
编程语言 时间:
2014-11-10 18:17:09
阅读次数:
251
1.Scrapy是什么?2.如何安装Scrapy?2.如何构建一个简单的spider?3.如何解析HTML?4.如何写入数据库?关于ScrapyScrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。安装Scrapy1.需要安装Python..
分类:
微信 时间:
2014-11-03 01:35:14
阅读次数:
1195
这个事,折腾了仨小时。记下来。别再走弯路。一链接地址:查看源代码是这样的:通过审查元素看,是这样的:而,真正的地址,是这样的(scrapy 中 response.body ):
分类:
其他好文 时间:
2014-10-28 13:51:30
阅读次数:
151
说起爬虫你一定想起:Scrapy,没用过这个东西,不过从Google,看起来很专业的,由于工作需要,偶尔也会从网上抓取一些数据,之前用的是beautifulsoup,我这个人其实也有点强迫症,一定要知道范围,优劣,那么问题来了?两个东西的范围是什么?以及那个更好?直接Google你可以得到答案原来是...
分类:
编程语言 时间:
2014-10-15 13:11:10
阅读次数:
164
本人比较喜欢看美剧,尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧,这里写了一个脚本来批量获得指定美剧的所有 HR-HDTV 的 ed2k下载链接,并按照先后顺序写入到文本文件。这个 python 爬虫比较短,就用到了 urllib.request 和 re 这两个模块,前者负责抓取网页,后者负责解析文本。想进一步加强爬虫的功能,可以用爬虫框架 Scrapy。还有就是,网页内容多是 javascript 生成,就需要一个 js 引擎了,PyV8 可以拿来试试,再有就是基于 js 的爬虫...
分类:
编程语言 时间:
2014-10-11 22:03:36
阅读次数:
344
翻译的官网文档质量不错啊,在看自己翻的,TAT。 Spider class scrapy.spider.Spider #官网手册后面还有几个,例如CrawlSpider,但感觉还是这个用的多,github上的使用比例为30000对4300。如果CrawlSpider更好用,...
分类:
其他好文 时间:
2014-10-07 02:40:53
阅读次数:
287
在os x下,安装完python爬虫框架scrapy后,使用scrapy startproject tutorial新建scrapy项目时,出现以下问题:Traceback (most recent call last): File "/usr/local/bin/scrapy", line 5,....
分类:
其他好文 时间:
2014-10-06 12:32:50
阅读次数:
412
关于数据过滤,scrapy提供xpath和css两种过滤器(selector),一般xpath使用的较多,另外我对css也不算熟。这里主要是xpath。 关于xpath,是一种专门在 XML 文档中查找信息的语言。详细教程可以看这里:http://ww...
分类:
其他好文 时间:
2014-10-06 01:42:49
阅读次数:
366
爬虫最基本的部分是要将网页下载,而最重要的部分是过滤 -- 获取我们需要的信息。 而scrapy正好提供了这个功能: 首先我们要定义items: Itemsare containers that will be loaded with the scraped data; they ...
分类:
其他好文 时间:
2014-10-05 01:04:07
阅读次数:
341