搜索关键字：scrapy，搜索到2725个结果！码迷,mamicode.com！

读取scrapy配置文件setting.py中的方法

scrapy升级比较频繁，有一些标签经常被废弃掉了比如读取配置文件setting.py原来用的fromscrapy.confimportsettings就废弃掉了那怎么用新的呢？官方文档用的是装饰器方法有一个更简单的方法fromscrapy.utils.projectimportget_project_settingssettings=get_project_settings()..

分类：其他好文时间：2014-08-20 14:22:53 阅读次数：246

python爬虫----（3. scrapy框架，简单应用）

（1）创建scrapy项目 scrapy?startproject?getblog ????（2）编辑 items.py #?-*-?coding:?utf-8?-*- #?Define?here?the?models?for?your?scraped?items # #?See?documentation?i...

分类：编程语言时间：2014-08-20 07:06:56 阅读次数：262

python爬虫----（2. scrapy框架）

Scrapy框架，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。 ????刚开始学习这个框架。不...

分类：编程语言时间：2014-08-20 04:00:06 阅读次数：302

Windows下安装Scrapy

这几天正好有需求实现一个爬虫程序，想到爬虫程序立马就想到了python，python相关的爬虫资料好像也特别多。于是就决定用python来实现爬虫程序了，正好发现了python有一个开源库scrapy，正是用来实现爬虫框架的，于是果断采用这个实现。下面就先安装scrapy，决定在windows下面安...

分类：Windows程序时间：2014-08-19 16:23:44 阅读次数：332

安装Scrapy

安装Scrapy之前需要安装：pipzope.interfacelxmlOpenSSL安装前三个时直接easy_install 就可以安装OpenSSL时遇到了一些问题首先easy_stall pyOpenSSL出现distutils.errors.DistutilsError: Setup scr...

分类：其他好文时间：2014-08-18 17:47:12 阅读次数：253

scrapy带cookie登录简单的网站

在爬数据的时候，登录一直是一个比较麻烦的问题。我也一直在网上找过各种资料，都挺麻烦的，因为需要分析各种http过程，感觉太麻烦了。不过最近在一个同学的帮助下，找到了使用cookie登录的方法。因为带cookie登录的话，server会认为你是一个已登录的用户，所以就会返回给你一个已登录的内容本文介绍...

分类：Web程序时间：2014-08-16 16:26:50 阅读次数：4112

一个网站的诞生02--用Scrapy抓取数据

如果想抓数据，就需要有爬虫程序，业内叫crawler或者spider。有各种语言版本的开源爬虫，c++, Java, php，在github上搜一下，以"spider c++"为关键字，有245个开源爬虫，以"spider java"为关键字，有48个。那python呢？156个。爬虫技术在业界已经很成熟了，有很多开源框架，在它们的帮助下写爬虫可以很快，几个小时就能写一个...

分类：Web程序时间：2014-08-04 17:37:47 阅读次数：285

scrapy采集列表页的另一种方式

又是采集绿色下载站的最新软件，又是采用另一种方式(前两种是采用正则和xpath)，呵呵感觉有点像孔乙已的茴字有几种写法了这回用CrawlSpider,Rule来配合采集这次不用生成许多start_urls列表项了，可以按规则来自动读取，贴核心代码#-*-coding:utf-8-*- fromscrapy.contrib.spide..

分类：其他好文时间：2014-08-03 23:34:57 阅读次数：500

scrapy-redis源码分析

原创文章，链接： (I) connection.py 负责根据setting中配置实例化redis连接。被dupefilter和scheduler调用，总之涉及到redis存取的都要使用到这个模块。 (II) dupefilter.py 负责执行requst的去重，实现的很有技巧性，使用redis的set数据结构。但是注意scheduler并不使用其中用于在这个模块中实现的dupe...

分类：其他好文时间：2014-07-28 16:10:23 阅读次数：395

怎样编写scrapy扩展

原创文章，链接：在scrapy使用过程中，很多情况下需要根据实际需求定制自己的扩展，小到实现自己的pipelines，大到用新的scheduler替换默认的scheduler。扩展可以按照是否需要读取crawler大致分为两种，对于不需要读取的，比如pipelines的编写，只需要实现默认的方法porcess_item。需要读取的，如scheduler的编写又存在另外的方式。...

分类：其他好文时间：2014-07-28 16:08:23 阅读次数：229

共2725条上一页 1 ... 268 269 270 271 272 273 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)