码迷,mamicode.com
首页 >  
搜索关键字:scrapy    ( 2725个结果
Scrapy入门教程
该文章转载至http://www.cnblogs.com/txw1958/archive/2012/07/16/scrapy-tutorial.html在这篇入门教程中,我们假定你已经安装了Scrapy。如果你还没有安装,那么请参考安装指南。我们将使用开放目录项目(dmoz)作为抓取的例子。这篇入门...
分类:其他好文   时间:2015-01-10 22:18:02    阅读次数:347
Scrapy安装
一、安装python官网下载python后安装,并将python路径(C:\Python27;C:\Python27\Scripts;)加入环境变量,验证是否安装ok:>pythonPython 2.7.9 (default, Dec 10 2014, 12:28:03) [MSC v.1500 6...
分类:其他好文   时间:2015-01-08 22:42:41    阅读次数:808
Python爬虫框架Scrapy 学习笔记 7------- scrapy.Item源码剖析
在前面的example中,我们知道定义一个Item类很简单,只要继承scrapy.Item,然后添加几个类型为scrapy.Field的对象作为类属性,就像下面这样importscrapy classProduct(scrapy.Item): name=scrapy.Field() price=scrapy.Field() stock=scrapy.Field() last_updated=scrapy.Field(..
分类:编程语言   时间:2015-01-08 07:18:25    阅读次数:958
Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令
1.有些scrapy命令,只有在scrapyproject根目录下才available,比如crawl命令2.scrapygenspidertaobaohttp://detail.tmall.com/item.htm?id=12577759834自动在spider目录下生成taobao.py#-*-coding:utf-8-*- importscrapy classTaobaoSpider(scrapy.Spider): name="taobao" all..
分类:编程语言   时间:2015-01-07 19:07:36    阅读次数:324
Python+Scrapy安装
抓取网站的代码实现很多,如果考虑到抓取下载大量内容scrapy框架无疑是一个很好的工具。Scrapy = Search+Pyton。下面简单列出安装过程。PS:一定要按照Python的版本下载,要不然安装的时候会提醒找不到P...
分类:编程语言   时间:2015-01-07 13:22:53    阅读次数:206
Python爬虫框架Scrapy 学习笔记 5 ------- 使用pipelines过滤敏感词
还是上一篇博客的那个网站,我们增加了pipeline.pyitems.pyfromscrapy.itemimportItem,Field classWebsite(Item): name=Field() description=Field() url=Field()dmoz.pyfromscrapy.spiderimportSpider fromscrapy.selectorimportSelector fromdirbot.itemsimportWebsite ..
分类:编程语言   时间:2015-01-06 18:12:30    阅读次数:391
Python爬虫框架Scrapy 学习笔记 4 ------- 第二个Scrapy项目
1.任务一,抓取以下两个URL的内容,写入文件http://www.dmoz.org/Computers/Programming/Languages/Python/Books/http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/项目截图和上一个project不同的是,在spider中没有定义rules属性,而是定义了parse方法..
分类:编程语言   时间:2015-01-06 18:11:44    阅读次数:314
Python爬虫框架Scrapy 学习笔记 3 ------- 第一个Scrapy项目
开发环境PyCharm目标网站和上一次一样,可参考:http://dingbo.blog.51cto.com/8808323/1597695但是这次不是在单个文件中运行,而是创建一个scrapy项目1.使用命令行工具创建scrapy项目的基本目录结构2.编辑items.py3.在spiders目录下,新建spider1.py报错很正常我们按照scrapypr..
分类:编程语言   时间:2015-01-06 12:11:40    阅读次数:277
Spider实例详解
1 # -*- coding: utf-8 -*- 2 3 import scrapy 4 from scrapy import Spider, Request, log 5 from scrapy.selector import Selector 6 import sys 7 s...
分类:其他好文   时间:2015-01-05 14:27:47    阅读次数:126
Scrapy框架原理
Scrapy使用了Twisted异步网络库来处理网络通讯。整体架构大致如下(注:图片来自互联网):1、Scrapy Engine(Scrapy引擎)Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。2、Scheduler(调度)调度程序从...
分类:其他好文   时间:2015-01-05 11:06:05    阅读次数:319
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!