这是之前Lucene3.0生成的索引格式a表b表、c.这是网上找的图片(因为上面的两张表的segment都是合并了的)lucene4.9 建立的索引: 索引(Index): 在Lucene中一个索引是放在一个文件夹中的。 如上图,同一文件夹中的所有的文件构成一个Lucene索引。 段(Segment...
分类:
其他好文 时间:
2014-07-16 22:49:44
阅读次数:
211
概念性的:只能处理字符串,属于全文搜索引擎(站内),数据库把词条给lucence然后查找的时候在lucence中查找其它的搜索技术如like%%模糊查询模糊程度太低,无法匹配几个关键词不挨着的;造成全表扫描,效率低数据库全文索引需要在数据库中开启,效率可以但是模糊率不行数据库全文检索很傻瓜化,和普通...
分类:
Web程序 时间:
2014-07-16 21:01:39
阅读次数:
379
深入学习ExtJs4.1的布局及常用控件http://edu.ibeifeng.com/view-index-id-129.html专题-深入JavaOOP编程http://edu.ibeifeng.com/view-index-id-88.html案例:Red5&Flex聊天室架构与实现http:...
分类:
编程语言 时间:
2014-07-11 22:35:07
阅读次数:
242
原来的string docvalues使用utf-8编码,载入时转码花费大量时间,我们把转码实现从new String(bytes, "UTF-8")改用lucene的bytesRef.utf8ToString,降低了大约十秒的时间。想进一步优化,我们使用UTF-16LE编码,解码很easy甚至仅仅...
分类:
其他好文 时间:
2014-07-09 21:19:59
阅读次数:
226
搜索引擎技术之概要预览前言 近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索引擎相关技术类的文章,接触到不少此前未曾触碰到的诸多概念与技术,如爬虫,网页抓取,分词,索引,查询,排序等等,更惊叹于每一幅精彩的架构图,特此,便有记录下来的冲动,以作备忘。 本文从最主要.....
分类:
其他好文 时间:
2014-07-09 20:04:15
阅读次数:
200
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:
其他好文 时间:
2014-07-08 23:15:59
阅读次数:
231
一、利用SolrJ操作solr API 使用SolrJ操作Solr会比利用httpClient来操作Solr要简单。SolrJ是封装了httpClient方法,来操作solr的API的。SolrJ底层还是通过使用httpClient中的方法来完成Solr的操作。 需要的包如下: 1、 apac...
分类:
其他好文 时间:
2014-07-08 22:33:00
阅读次数:
441
l全文检索(Full-Text
Retrieval)是指以文本作为检索对象,找出含
有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指
标。
l关于全文检索,我们要知道:
1,只处理文本。
2...
分类:
其他好文 时间:
2014-07-08 16:31:05
阅读次数:
183
假如你像用lucene来作分组,比如按类别分组,这种功能,好了你压力大了,lucene本身是不支持分组的。当你想要这个功能的时候,就可能会用到基于lucene的搜索引擎solr。不过也可以通过编码通过FieldCache和单字段,对索引进行分组,比如:想构造类别树。大类里面还有小类那种。这个功能实现...
分类:
其他好文 时间:
2014-07-08 00:32:03
阅读次数:
247
6.3内存索引库
6.3.1特点
在内存中开辟一块空间,专门为索引库存放。这样有以下几个特征:
1) 因为索引库在内存中,所以访问速度更快。
2) 在程序退出时,索引库中的文件也相应的消失了。
3) 如果索引库比较大,必须得保证足够多的内存空间。
6.3.2编码
在cn.hqu.directory 下新建:DirectoryT...
分类:
其他好文 时间:
2014-07-06 08:11:33
阅读次数:
188