码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy使用

时间:2014-12-08 22:59:17      阅读:333      评论:0      收藏:0      [点我收藏+]

标签:blog   http   io   ar   os   使用   sp   on   art   

scrapy是一个python爬虫框架,使用起来还是非常简单的。

 

使用pip安装scrapy

   首先安装pip,安装后使用pip安装scrapy,pip install scrapy

 

scrapy创建项目,及简单测试

  这里有几个比较好的例子

  http://blog.csdn.net/HanTangSongMing/article/details/24454453

  http://my.oschina.net/chengye/blog/124162

  他们都是使用的CrawlSpider,这种爬虫的有点事可以帮其获取页面上的链接,然后自动爬取。

  每一条rule的意思是

  Rule(sle(allow=("/position.php\?&start=\d{,4}#a")), follow=True, callback=‘parse_item‘)

  首先rule定义了哪些链接需要做跟踪或处理。 

  如果rule的follow为true则跟踪匹配规则对应页面上的链接,如果有回调函数则对匹配规则的页面进行分析

 

scrapy 使用xpath抓取,xpath是一种xml导航语言,非常好用

 

scrapy的shell工具非常好用

  首先打开scrapy shell :scrapy shell

  打开后使用fetch(‘url‘),打开要爬去的链接

  然后使用 response.xpath(‘//***/***‘) 就能分析页面了

 

scrapy 的response 已经把页面装维unicode编码了,可以直接encode成gbk或者utf8,。

 

scrapy中文文档:http://scrapy-chs.readthedocs.org/zh_CN/0.24 

我感觉咋像机器翻译的那,有的地方太生硬,可以结合着原文文档使用

scrapy使用

标签:blog   http   io   ar   os   使用   sp   on   art   

原文地址:http://www.cnblogs.com/krytor/p/4152107.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!