/*
* 这段代码的功能是利用PDFBox.zip的包
* 利用lucene对PDF文本进行内容的解析
* 读取pdf文件的内容。然后重新的写入到同名的.txt文件中
* */
结果截图:
package pdfbox;
import java.io.File;
import java.io.FileOut...
分类:
Web程序 时间:
2015-04-05 10:34:57
阅读次数:
131
--------------------------------------------------
IndexReader的设计
--------------------------------------------------
IndexReader的创建需要消耗大量内存空间,
所以通过将IndexReader设计出属性值,进行一次创建
整个项目周期就只有一个IndexRead...
分类:
Web程序 时间:
2015-04-04 16:53:06
阅读次数:
151
lucene4.3简单搜索示例代码 源代码下载地址:http://www.zuidaima.com/share/1550463715560448.htm...
分类:
Web程序 时间:
2015-04-04 12:20:01
阅读次数:
226
本文记录Lucene+Paoding的使用方法图解:一、下载Lucene(官网:http://archive.apache.org/dist/lucene/java/)本文中使用的是:2.9.4,下载后解压,Lucene所需要的基本jar文件如下列表: lucene-core-2.9.4.jar L...
分类:
Web程序 时间:
2015-04-04 12:01:19
阅读次数:
147
lucene是什么?lucene是一个开源的,广泛应用的,对数据进行索引、查询的一个框架,更详细的介绍请查看www.lucene.com.下面简单的描述一下索引和查询过程。1. 做索引简单过程://获取索引存储路径String strindexDir =“”;File indexDir = new ...
分类:
Web程序 时间:
2015-04-04 12:00:55
阅读次数:
142
Lucene 简介Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。目 前已经有很多应用程序的搜...
分类:
Web程序 时间:
2015-04-04 11:51:13
阅读次数:
180
本文介绍了如何通过CrawlBase来实现纵横小说章节列表页信息的采集,同时提供了对于无法右键查看网页源代码网页的信息采集方案...
分类:
Web程序 时间:
2015-04-03 15:17:59
阅读次数:
134
/*
* Filter这个类的功能是实现对于查询的过滤器,
* 对于用户搜索的,可以把保密的网站或者文档对用户不进行显示
* 例如:
* 这里就是一个图书馆的查询系统,图书馆的有些珍贵资料是不予显示的。
* 只有高级权限的(Advanced)的用户才可以显示
*
* */
package filter;
import java.io.IOException...
分类:
Web程序 时间:
2015-04-03 13:31:48
阅读次数:
195
/*
* 这段代码使用的是Lucene对于文档排序使用的sort方法
* 这里可以使用多个sort的构造方法,来自己定义,所想要实现的功能。
* */
package score;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
im...
分类:
编程语言 时间:
2015-04-03 11:26:20
阅读次数:
123