码迷,mamicode.com
首页 >  
搜索关键字:lucene    ( 2421个结果
lucene 内存索引存储每个field里内容的相关代码
相关的类调用关系DocumentsWriterPerThread ——>DocFieldProcessorDocumentsWriterPerThread里的consumer对象(类型是DocFieldProcessor)负责field的内数据的存储1 consumer.processDocumen...
分类:Web程序   时间:2014-10-21 19:05:00    阅读次数:220
solr 源码编译
solr源码编译首先下载想编译的源码(http://archive.apache.org/dist/lucene/solr/)然后下载ant(http://mirror.bjtu.edu.cn/apache/ant/binaries/) ps:apache-ant-1.9.4-bin.zip再下载....
分类:其他好文   时间:2014-10-21 11:54:10    阅读次数:284
Linux下运行java项目
最近初步接触了linux,感觉很有新鲜感。之前在windows下干过的事情也便想到在linux环境下实现一下。正好手头在编java,就想既然java可以在windows的DOS操作下运行,是不是也可以在linux的terminal下编译执行呢?好奇心是最好的老师,网上丰富的资源帮助我很快的实现了这一...
分类:编程语言   时间:2014-10-20 23:18:52    阅读次数:270
Solr4.8.0源码分析(12)之Lucene的索引文件(5)
Solr4.8.0源码分析(12)之Lucene的索引文件(5)1. 存储域数据文件(.fdt和.fdx) Solr4.8.0里面使用的fdt和fdx的格式是lucene4.1的。为了提升压缩比,StoredFieldsFormat以16KB为单位对文档进行压缩,使用的压缩算法是LZ4,由于它...
分类:Web程序   时间:2014-10-20 23:06:39    阅读次数:368
[CSharp] C#开源大全
商业协作和项目管理平台-TeamLab网络视频会议软件-VMukti驰骋工作流程引擎-ccflow【免费】正则表达式测试工具-Regex-TesterWindows-Phone-7-SDKExcel-读写组件-ExcelLibrary.NET集成开发环境-MonoDevelop电话软交换机-Free...
分类:Windows程序   时间:2014-10-20 20:55:13    阅读次数:979
验证相关度排序是否受查询的多个关键字在内容中相邻紧密程度有关
昨天给公司同事们介绍了lucene相关度打分的公式,大家提到了一个问题,总感觉用相关度排序的时候,lucene会把查询关键字相邻紧密的doc排在前面,但是打分公式里面却没提到过这个因素,所以我现在来验证下查询词的紧密程度是否会影响打分。局部代码添加doc程序1 设置lucene保存field的所有信...
分类:编程语言   时间:2014-10-19 14:20:30    阅读次数:150
lucene合并测试的总结
1 查询的总时间等于每个segment查询时间的总和2 合并的步骤 (1)做flush操作的先生成一个新的segment (2)检查在新segment之前已经存在的segment的数量是否大于maxmerge(默认是10个),大于了进行合并 (3)合并完成又会生成一个新的segment,然后把...
分类:Web程序   时间:2014-10-19 14:17:33    阅读次数:149
lucene的相关度打分
官方文档http://lucene.apache.org/core/4_9_0/core/org/apache/lucene/search/similarities/TFIDFSimilarity.htmlterm:不是单纯的key。是field-key,指定域下面的key影响打分的因素coord:...
分类:Web程序   时间:2014-10-19 14:14:04    阅读次数:254
lucene和egg项目的异同点
1 和lucene一样 支持全域索引2 对字符串域提供全文检索,对数字类型域提供范围查询3 采取和lucene类似的倒排表压缩方式4 和lucene的多级跳转表不同,egg采取的是B+树做索引,这种数据结构在应付大数量的存储上面更加适合。5 和lucene不一样, egg不仅仅是个全文检索引擎包,采...
分类:Web程序   时间:2014-10-19 14:13:43    阅读次数:238
Lucene的Vint类型详解
Lucene Vint压缩策略是,用每个字节的最高位做标志位,后7位为有效算术位,如果标志位为1,则说明后一个字节和当前字节是同一个数字,为0说明后一个字节是一个新的数字Lucene源代码中进行存储和读取是这样的。OutputStream是负责写:1/**Writesanintinavariable...
分类:Web程序   时间:2014-10-19 14:08:49    阅读次数:170
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!