码迷,mamicode.com
首页 >  
搜索关键字:scrapy    ( 2725个结果
读取scrapy配置文件setting.py中的方法
scrapy升级比较频繁,有一些标签经常被废弃掉了比如读取配置文件setting.py原来用的fromscrapy.confimportsettings就废弃掉了那怎么用新的呢?官方文档用的是装饰器方法有一个更简单的方法fromscrapy.utils.projectimportget_project_settingssettings=get_project_settings()..
分类:其他好文   时间:2014-08-20 14:22:53    阅读次数:246
python爬虫----(3. scrapy框架,简单应用)
(1)创建scrapy项目 scrapy?startproject?getblog ????(2)编辑 items.py #?-*-?coding:?utf-8?-*- #?Define?here?the?models?for?your?scraped?items # #?See?documentation?i...
分类:编程语言   时间:2014-08-20 07:06:56    阅读次数:262
python爬虫----(2. scrapy框架)
Scrapy框架,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 ????刚开始学习这个框架。不...
分类:编程语言   时间:2014-08-20 04:00:06    阅读次数:302
Windows下安装Scrapy
这几天正好有需求实现一个爬虫程序,想到爬虫程序立马就想到了python,python相关的爬虫资料好像也特别多。于是就决定用python来实现爬虫程序了,正好发现了python有一个开源库scrapy,正是用来实现爬虫框架的,于是果断采用这个实现。下面就先安装scrapy,决定在windows下面安...
分类:Windows程序   时间:2014-08-19 16:23:44    阅读次数:332
安装Scrapy
安装Scrapy之前需要安装:pipzope.interfacelxmlOpenSSL安装前三个时直接easy_install 就可以安装OpenSSL时遇到了一些问题首先easy_stall pyOpenSSL出现distutils.errors.DistutilsError: Setup scr...
分类:其他好文   时间:2014-08-18 17:47:12    阅读次数:253
scrapy带cookie登录简单的网站
在爬数据的时候,登录一直是一个比较麻烦的问题。我也一直在网上找过各种资料,都挺麻烦的,因为需要分析各种http过程,感觉太麻烦了。不过最近在一个同学的帮助下,找到了使用cookie登录的方法。因为带cookie登录的话,server会认为你是一个已登录的用户,所以就会返回给你一个已登录的内容本文介绍...
分类:Web程序   时间:2014-08-16 16:26:50    阅读次数:4112
一个网站的诞生02--用Scrapy抓取数据
如果想抓数据,就需要有爬虫程序,业内叫crawler或者spider。 有各种语言版本的开源爬虫,c++, Java,  php,在github上搜一下,以"spider c++"为关键字,有245个开源爬虫,以"spider java"为关键字,有48个。那python呢?156个。 爬虫技术在业界已经很成熟了,有很多开源框架,在它们的帮助下写爬虫可以很快,几个小时就能写一个...
分类:Web程序   时间:2014-08-04 17:37:47    阅读次数:285
scrapy采集列表页的另一种方式
又是采集绿色下载站的最新软件,又是采用另一种方式(前两种是采用正则和xpath),呵呵感觉有点像孔乙已的茴字有几种写法了这回用CrawlSpider,Rule来配合采集这次不用生成许多start_urls列表项了,可以按规则来自动读取,贴核心代码#-*-coding:utf-8-*- fromscrapy.contrib.spide..
分类:其他好文   时间:2014-08-03 23:34:57    阅读次数:500
scrapy-redis源码分析
原创文章,链接: (I) connection.py 负责根据setting中配置实例化redis连接。被dupefilter和scheduler调用,总之涉及到redis存取的都要使用到这个模块。 (II) dupefilter.py 负责执行requst的去重,实现的很有技巧性,使用redis的set数据结构。但是注意scheduler并不使用其中用于在这个模块中实现的dupe...
分类:其他好文   时间:2014-07-28 16:10:23    阅读次数:395
怎样编写scrapy扩展
原创文章,链接: 在scrapy使用过程中,很多情况下需要根据实际需求定制自己的扩展,小到实现自己的pipelines,大到用新的scheduler替换默认的scheduler。 扩展可以按照是否需要读取crawler大致分为两种,对于不需要读取的,比如pipelines的编写,只需要实现默认的方法porcess_item。需要读取的,如scheduler的编写又存在另外的方式。...
分类:其他好文   时间:2014-07-28 16:08:23    阅读次数:229
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!