利用xpath()分析抓取数据还是比较简单的,只是网址的跳转和递归等比较麻烦。耽误了好久,还是豆瓣好呀,URL那么的规范。唉,亚马逊URL乱七八糟的.... 可能对url理解还不够. amazon
├──?amazon
│??...
分类:
编程语言 时间:
2014-08-22 05:03:45
阅读次数:
3369
本章描述:对于Protocol的封装 package?com.digitalpebble.storm.crawler.fetcher;
import?com.digitalpebble.storm.crawler.util.Configuration;
public?interface?Protocol?{
????public?Protoco...
分类:
其他好文 时间:
2014-08-21 19:45:55
阅读次数:
147
package?com.digitalpebble.storm.crawler;
import?backtype.storm.Config;
import?backtype.storm.metric.MetricsConsumerBolt;
import?backtype.storm.metric.api.IMetricsConsumer;
import?backtype.st...
分类:
其他好文 时间:
2014-08-21 17:25:44
阅读次数:
185
在分析和处理选择内容时,还需注意页面的JS可能会修改DOM树结构。 (一)GitHub的使用 ????由于之前使用Win,没使用过shell的。目前只是了解。以后再补充。找到几个不错的教程 ? ? ????GitHub超...
分类:
编程语言 时间:
2014-08-21 09:55:44
阅读次数:
251
你的网站内容很有价值,希望被google,百度等正规搜索引擎爬虫收录,却不想让那些无节操的山寨爬虫把你的数据扒走坐享其成。本文将探讨如何在网站中加入优雅的反爬虫策略。 【思路】 反爬虫策略要考虑以下几点: ...
分类:
Web程序 时间:
2014-08-20 19:45:53
阅读次数:
298
官方文档: http://doc.scrapy.org/en/latest/ ??? github例子: https://github.com/search?utf8=%E2%9C%93&q=scrapy ????剩下的待会再整理...... 买饭去......?????? --2014年08月20日19:...
分类:
编程语言 时间:
2014-08-20 19:45:13
阅读次数:
243
采集时,有时候需要采集图片,但某些网站的图片提供的相对地址,最好转换成绝对地址在scrapy中有如下的解决策略http://stackoverflow.com/questions/6499603/python-scrapy-convert-relative-paths-to-absolute-pathshttp://stackoverflow.com/questions/19970015/scrapy-item-..
分类:
编程语言 时间:
2014-08-20 16:38:23
阅读次数:
239
scrapy升级比较频繁,有一些标签经常被废弃掉了比如读取配置文件setting.py原来用的fromscrapy.confimportsettings就废弃掉了那怎么用新的呢?官方文档用的是装饰器方法有一个更简单的方法fromscrapy.utils.projectimportget_project_settingssettings=get_project_settings()..
分类:
其他好文 时间:
2014-08-20 14:22:53
阅读次数:
246
(1)创建scrapy项目 scrapy?startproject?getblog ????(2)编辑 items.py #?-*-?coding:?utf-8?-*-
#?Define?here?the?models?for?your?scraped?items
#
#?See?documentation?i...
分类:
编程语言 时间:
2014-08-20 07:06:56
阅读次数:
262