码迷,mamicode.com
首页 >  
搜索关键字:heritrix    ( 39个结果
关于heritrix安装配置时出现”必须限制口令文件读取访问权限”的解决方法
转载:http://www.floatinglife.cn/关于heritrix安装配置时出现必须限制口令文件读取访问最近开始写一个RSS聚合程序,需要爬虫支持,于是就整来heritrix,没想到,这东西还挺拽,费了老衲好几个小时来安装配置这个heritrix。最后经过不懈努力,终于起来了,具体步骤...
分类:其他好文   时间:2014-09-18 00:38:12    阅读次数:369
基于Berkeley DB实现的持久化队列
转自:http://guoyunsky.iteye.com/blog/1169912队列很常见,但大部分的队列是将数据放入到内存.如果数据过多,就有内存溢出危险,而且长久占据着内存,也会影响性能.比如爬虫,将要抓取的URL放到内存,而URL过多,内存肯定要爆.在读Heritrix源码中,发现Heri...
分类:数据库   时间:2014-09-03 14:45:16    阅读次数:468
Heritrix3.0.0启动介绍
下面开始使用Heritrix3.0.0进 入CMD(开始->运行),进入Heritrix3.0.0所在目录,我这里是D:/heritrix/heritrix3.0.0/bin,这里 大家截图也可以看到.输入以下命令:heritrix -a admin:admin,这里会跳出一个cmd,截图如下:就 ...
分类:其他好文   时间:2014-08-20 16:18:22    阅读次数:183
heritrix 3.X 环境搭建
依赖 <dependency> <groupId>org.archive.heritrix</groupId> <artifactId>heritrix-commons</artifactId> <version>3.1.0</version> <scope>compile</scope> </dependency> <dependency> ..
分类:其他好文   时间:2014-06-26 06:19:10    阅读次数:300
【Heritrix源代码分析4】开始一个爬虫抓取的全流程代码分析
在创建一个job后,就要开始job的运行,运行的全流程如下: 1、在界面上启动job 2、index.jsp 查看上述页面对应的源代码 Start 3、action.jsp String sAction = request.getParameter("action"); if(sAction != null) { // Need ...
分类:其他好文   时间:2014-06-20 09:24:23    阅读次数:272
Berkeley DB基础教程
一、Berkeley DB的介绍 (1)Berkeley DB是一个嵌入式数据库,它适合于管理海量的、简单的数据。如Google使用其来保存账户信息,Heritrix用其来保存froniter. (2)key/value是Berkeley DB用来管理数据的基础,每个key/value对代表一条记录。 (3)Berkeley DB在底层实现采用B树,可以看成能够存储大量数据的HashMa...
分类:数据库   时间:2014-06-03 01:31:36    阅读次数:388
【Heritrix源码分析3】Heritrix的基本架构
Heritrix可分为四大模块: 1、控制器CrawlController 2、待处理的uri列表  Frontier 3、线程池 ToeThread 4、各个步骤的处理器 (1)Pre-fetch processing chain:主要处理DNS-lookup, robots.txt,认证,抓取范围检查等。 (2)Fetch Processing chain:抓取处理器。对于每个协议...
分类:其他好文   时间:2014-06-02 03:00:49    阅读次数:419
【Heritrix源码分析】Heritrix基本内容介绍
1、版本说明 (1)最新版本:3.3.0 (2)最新release版本:3.2.0  (3)重要历史版本:1.14.4 3.1.0及之前的版本:http://sourceforge.net/projects/archive-crawler/files/    3.2.0及之后的版本:http://archive.org/ 由于国情需要,后者无法访问,因此本blog研究的是1.14.4版...
分类:其他好文   时间:2014-06-01 17:30:53    阅读次数:420
在Eclipse中配置Heritrix
一、新建项目并将Heritrix源码导入 1、下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包; 2、在Eclipse下新建Java项目,取名Heritrix.1.14.4; 3、复制SRC包下面src/java文件夹下org和st两个文件夹到项目中的src包下; 4、复制SRC包下src下conf...
分类:系统相关   时间:2014-06-01 15:51:56    阅读次数:459
39条   上一页 1 2 3 4
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!