码迷,mamicode.com
首页 >  
搜索关键字:lucene    ( 2421个结果
Dom4j的使用(全而好的文章)
DOM4J是dom4j.org出品的一个开源XML解析包,它的网站中这样定义:Dom4j is an easy to use, open source library for working with XML, XPath and XSLT on the Java platform using th...
分类:其他好文   时间:2014-06-18 16:34:47    阅读次数:302
几种开源分词工具的比較
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:其他好文   时间:2014-06-18 14:09:29    阅读次数:162
Lucene41PostingWriter源码分析
原来看lucene4.0的posting格式(http://blog.csdn.net/jollyjumper/article/details/30017581),发现这还是比较简单的VInt格式,据说VInt压缩解压都不错(medium),但解压时分支太多打乱CPU流水线因而不够高效,流行的索引压缩有很多,for,simple9,simple16,PForDelta是比较流行的一种,发现luce...
分类:其他好文   时间:2014-06-16 22:35:40    阅读次数:355
【Lucene4.8教程之二】域(Field)的用法
1、在Lucene4.x前,使用以下方式创建一个Field: Field field = new Field("filename", f.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED); Field field = new Field("contents", new FileReader(f)); Field field = new...
分类:其他好文   时间:2014-06-16 14:43:13    阅读次数:242
lucene对文件做简单的索引
package com.mylucene; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.io.Reader; import java.nio.CharBuffer; import java.util.ArrayList; import java.util.List;...
分类:其他好文   时间:2014-06-15 17:50:57    阅读次数:253
lucene定义自己的分词器将其分成单个字符
问题描述:将一句话拆分成单个字符,并且去掉空格。 package com.mylucene; import java.io.IOException; import java.io.Reader; import org.apache.lucene.analysis.Tokenizer; import org.apache.lucene.analysis.tokenattributes.Ch...
分类:其他好文   时间:2014-06-14 09:22:17    阅读次数:235
Lucene40SkipListWriter
多级跳跃表是保存在tim文件中的。 tip是term index,tim是term dictionary。记忆方法是,p是pointer因此是term index。 这个类会保存多个level的last变量和cur变量,同时使用RAMOutputStream数组缓存不同级别跳跃表的内容,一个term的所有doc添加完后才写入tim文件。几个主要方法: resetSkip:几个last变量重置...
分类:其他好文   时间:2014-06-14 06:36:07    阅读次数:386
Java开源项目(备查)
转自:http://www.blogjava.net/Carter0618/archive/2008/08/11/221222.htmlSpring Framework【Java开源J2EE框架】Spring 是一个解决了许多在J2EE开发中常见的问题的强大框架。 Spring提供了管理业务对象的一...
分类:编程语言   时间:2014-06-13 15:39:13    阅读次数:888
数据库的本质、概念及其应用实践
今天这堂课,分为三个大点,正如标题所指出的,是讨论数据的本质、概念与应用实践。第一点本质的探讨是站在一个更高的高度来分析数据的产生以及各种使用场景,然后将数据相关的存储手段,作一个汇总讲解。而概念,则是一个串讲,主要放在关系数据库上,因为我们六月份公开课,也将以关系型数据库为主。第三点就是通过一些实...
分类:数据库   时间:2014-06-12 08:58:04    阅读次数:592
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!