scrapy升级比较频繁,有一些标签经常被废弃掉了比如读取配置文件setting.py原来用的fromscrapy.confimportsettings就废弃掉了那怎么用新的呢?官方文档用的是装饰器方法有一个更简单的方法fromscrapy.utils.projectimportget_project_settingssettings=get_project_settings()..
分类:
其他好文 时间:
2014-08-20 14:22:53
阅读次数:
246
(1)创建scrapy项目 scrapy?startproject?getblog ????(2)编辑 items.py #?-*-?coding:?utf-8?-*-
#?Define?here?the?models?for?your?scraped?items
#
#?See?documentation?i...
分类:
编程语言 时间:
2014-08-20 07:06:56
阅读次数:
262
Scrapy框架,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 ????刚开始学习这个框架。不...
分类:
编程语言 时间:
2014-08-20 04:00:06
阅读次数:
302
这几天正好有需求实现一个爬虫程序,想到爬虫程序立马就想到了python,python相关的爬虫资料好像也特别多。于是就决定用python来实现爬虫程序了,正好发现了python有一个开源库scrapy,正是用来实现爬虫框架的,于是果断采用这个实现。下面就先安装scrapy,决定在windows下面安...
安装Scrapy之前需要安装:pipzope.interfacelxmlOpenSSL安装前三个时直接easy_install 就可以安装OpenSSL时遇到了一些问题首先easy_stall pyOpenSSL出现distutils.errors.DistutilsError: Setup scr...
分类:
其他好文 时间:
2014-08-18 17:47:12
阅读次数:
253
在爬数据的时候,登录一直是一个比较麻烦的问题。我也一直在网上找过各种资料,都挺麻烦的,因为需要分析各种http过程,感觉太麻烦了。不过最近在一个同学的帮助下,找到了使用cookie登录的方法。因为带cookie登录的话,server会认为你是一个已登录的用户,所以就会返回给你一个已登录的内容本文介绍...
分类:
Web程序 时间:
2014-08-16 16:26:50
阅读次数:
4112
如果想抓数据,就需要有爬虫程序,业内叫crawler或者spider。
有各种语言版本的开源爬虫,c++, Java, php,在github上搜一下,以"spider c++"为关键字,有245个开源爬虫,以"spider java"为关键字,有48个。那python呢?156个。
爬虫技术在业界已经很成熟了,有很多开源框架,在它们的帮助下写爬虫可以很快,几个小时就能写一个...
分类:
Web程序 时间:
2014-08-04 17:37:47
阅读次数:
285
又是采集绿色下载站的最新软件,又是采用另一种方式(前两种是采用正则和xpath),呵呵感觉有点像孔乙已的茴字有几种写法了这回用CrawlSpider,Rule来配合采集这次不用生成许多start_urls列表项了,可以按规则来自动读取,贴核心代码#-*-coding:utf-8-*-
fromscrapy.contrib.spide..
分类:
其他好文 时间:
2014-08-03 23:34:57
阅读次数:
500
原创文章,链接:
(I) connection.py
负责根据setting中配置实例化redis连接。被dupefilter和scheduler调用,总之涉及到redis存取的都要使用到这个模块。
(II) dupefilter.py
负责执行requst的去重,实现的很有技巧性,使用redis的set数据结构。但是注意scheduler并不使用其中用于在这个模块中实现的dupe...
分类:
其他好文 时间:
2014-07-28 16:10:23
阅读次数:
395
原创文章,链接:
在scrapy使用过程中,很多情况下需要根据实际需求定制自己的扩展,小到实现自己的pipelines,大到用新的scheduler替换默认的scheduler。
扩展可以按照是否需要读取crawler大致分为两种,对于不需要读取的,比如pipelines的编写,只需要实现默认的方法porcess_item。需要读取的,如scheduler的编写又存在另外的方式。...
分类:
其他好文 时间:
2014-07-28 16:08:23
阅读次数:
229