码迷,mamicode.com
首页 >  
搜索关键字:scrapy    ( 2725个结果
Scrapy 探索之路
Scrapy 探索之路Scrapy 探索之路Table of Contents1 scrapy 是啥?2 怎么学习2.1 看手册2.2 安装2.3 入门2.4 一些工具3 碰到的一些问题3.1 request和response的拼接关系,3.2 如何post数据3.3 request被scrapy过...
分类:其他好文   时间:2015-07-13 13:31:57    阅读次数:145
Python 3.4 install lxml
Python 中使用Xpath不可避免地需要倒入lxml模块。 不过现在Python所面临的一个主要问题是他有两个主流的版本2.7和3.42.7是相对稳定的版本,许多模块在2.7上的支持性都非常好。 3.4相对来说,笔者认为更加标准和规范化,比如说默认的精确除法,以及print的括号等。 但3.4美中不足的便是对一些模块的支持行不是很好,比如:scrapy,lxml等笔者使用的Python3...
分类:编程语言   时间:2015-07-11 09:12:28    阅读次数:186
爬虫框架 Scrapy
Scrapy使用了Twisted异步网络库来处理网络通讯。整体架构大致如下(注:图片来自互联网)Scrapy主要包括了以下组件:引擎,用来处理整个系统的数据流处理,触发事务。调度器,用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回。下载器,用于下载网页内容,并将网页内容返回给蜘蛛。蜘...
分类:其他好文   时间:2015-06-29 22:11:33    阅读次数:175
Scrapy使用示例
很多网站都提供了浏览者本地的天气信息,这些信息是如何获取到的呢,方法有很多种,大多是利用某些网站提供的天气api获取的,也有利用爬虫采集的。本文就介绍如何用Scrapy来采集天气信息(从新浪天气频道采集:http://weather.sina.com.cn/)。先上一张最终的效果截图:1. 安装Sc...
分类:其他好文   时间:2015-06-29 13:17:58    阅读次数:92
Scrapy爬虫学习,及实践项目。
作为初学者,首先贴出自己看到的一个教程所提供的实例。。后边会讲解我自身所完成的项目说明。 我自己所做项目下载地址为:Scrapy爬虫项目 自己项目说明: 爬取某网站流行时尚网页项目,并对具体项目内容进行二次爬取,将爬取到的内容拼接成为新的静态html,存入自身Ftp服务器,并将信息提交到某接口。。(接口中进行数据操作。接口部分未上传 示例 scrapy爬取了链接之后,如...
分类:其他好文   时间:2015-06-29 09:57:21    阅读次数:101
【转】Duplicate Elimination in Scrapy
本文转载自:http://blog.pluskid.org/?p=381 之前介绍 Scrapy的时候提过 Spider Trap ,实际上,就算是正常的网络拓扑,也是很复杂的相互链接,虽然我当时给的那个例子对于我感兴趣的内容是可以有一个线性顺序依次爬下来的,但是这样的情况在真正的网络结构中通...
分类:其他好文   时间:2015-06-27 11:19:22    阅读次数:121
scrapy爬虫必需品--------xpath学习
XPath 路径表达式 XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 节点 在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点...
分类:其他好文   时间:2015-06-18 13:42:36    阅读次数:170
python scrapy爬取动态页面
preface:最近学习工作之外,有个异性朋友需要爬取动态网页的要求,输入关键词爬取某个专利网站在该关键词下的一些专利说明。以往直接python urllib2可破,但是那只是对于静态网页可破,但是对于用js等其他的生成的动态网页的话,则貌似不行(没试过)。然后在网上找了些资料,发现scrapy结合selenium包好像可以。(之所以这么说,暂时卤主也还没实现,先记录下来。) #========...
分类:编程语言   时间:2015-06-17 23:23:31    阅读次数:209
同时运行多个scrapy爬虫的几种方法(自定义scrapy项目命令)
如果我们有10个定制的spider,甚至更多。此时我们怎么快速地让这些spider运行起来呢?通过shell脚本是一种方式,官方也给出了scrapy同时运行多个脚本的方法。然而这些方法感觉都比较笨拙,同时也是为了学习一下scrapy是怎么自定义命令的。因此本文通过自定义scrapy命令的方式来快速运...
分类:其他好文   时间:2015-06-16 18:50:28    阅读次数:130
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!