转载:http://www.floatinglife.cn/关于heritrix安装配置时出现必须限制口令文件读取访问最近开始写一个RSS聚合程序,需要爬虫支持,于是就整来heritrix,没想到,这东西还挺拽,费了老衲好几个小时来安装配置这个heritrix。最后经过不懈努力,终于起来了,具体步骤...
分类:
其他好文 时间:
2014-09-18 00:38:12
阅读次数:
369
转自:http://guoyunsky.iteye.com/blog/1169912队列很常见,但大部分的队列是将数据放入到内存.如果数据过多,就有内存溢出危险,而且长久占据着内存,也会影响性能.比如爬虫,将要抓取的URL放到内存,而URL过多,内存肯定要爆.在读Heritrix源码中,发现Heri...
分类:
数据库 时间:
2014-09-03 14:45:16
阅读次数:
468
下面开始使用Heritrix3.0.0进 入CMD(开始->运行),进入Heritrix3.0.0所在目录,我这里是D:/heritrix/heritrix3.0.0/bin,这里 大家截图也可以看到.输入以下命令:heritrix -a admin:admin,这里会跳出一个cmd,截图如下:就 ...
分类:
其他好文 时间:
2014-08-20 16:18:22
阅读次数:
183
依赖
<dependency>
<groupId>org.archive.heritrix</groupId>
<artifactId>heritrix-commons</artifactId>
<version>3.1.0</version>
<scope>compile</scope>
</dependency>
<dependency>
..
分类:
其他好文 时间:
2014-06-26 06:19:10
阅读次数:
300
在创建一个job后,就要开始job的运行,运行的全流程如下:
1、在界面上启动job
2、index.jsp
查看上述页面对应的源代码
Start
3、action.jsp
String sAction = request.getParameter("action");
if(sAction != null)
{
// Need ...
分类:
其他好文 时间:
2014-06-20 09:24:23
阅读次数:
272
一、Berkeley DB的介绍
(1)Berkeley DB是一个嵌入式数据库,它适合于管理海量的、简单的数据。如Google使用其来保存账户信息,Heritrix用其来保存froniter.
(2)key/value是Berkeley DB用来管理数据的基础,每个key/value对代表一条记录。
(3)Berkeley DB在底层实现采用B树,可以看成能够存储大量数据的HashMa...
分类:
数据库 时间:
2014-06-03 01:31:36
阅读次数:
388
Heritrix可分为四大模块:
1、控制器CrawlController
2、待处理的uri列表 Frontier
3、线程池 ToeThread
4、各个步骤的处理器
(1)Pre-fetch processing chain:主要处理DNS-lookup, robots.txt,认证,抓取范围检查等。
(2)Fetch Processing chain:抓取处理器。对于每个协议...
分类:
其他好文 时间:
2014-06-02 03:00:49
阅读次数:
419
1、版本说明
(1)最新版本:3.3.0
(2)最新release版本:3.2.0
(3)重要历史版本:1.14.4
3.1.0及之前的版本:http://sourceforge.net/projects/archive-crawler/files/
3.2.0及之后的版本:http://archive.org/
由于国情需要,后者无法访问,因此本blog研究的是1.14.4版...
分类:
其他好文 时间:
2014-06-01 17:30:53
阅读次数:
420
一、新建项目并将Heritrix源码导入
1、下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包;
2、在Eclipse下新建Java项目,取名Heritrix.1.14.4;
3、复制SRC包下面src/java文件夹下org和st两个文件夹到项目中的src包下;
4、复制SRC包下src下conf...
分类:
系统相关 时间:
2014-06-01 15:51:56
阅读次数:
459