相关的类调用关系DocumentsWriterPerThread ——>DocFieldProcessorDocumentsWriterPerThread里的consumer对象(类型是DocFieldProcessor)负责field的内数据的存储1 consumer.processDocumen...
分类:
Web程序 时间:
2014-10-21 19:05:00
阅读次数:
220
solr源码编译首先下载想编译的源码(http://archive.apache.org/dist/lucene/solr/)然后下载ant(http://mirror.bjtu.edu.cn/apache/ant/binaries/) ps:apache-ant-1.9.4-bin.zip再下载....
分类:
其他好文 时间:
2014-10-21 11:54:10
阅读次数:
284
最近初步接触了linux,感觉很有新鲜感。之前在windows下干过的事情也便想到在linux环境下实现一下。正好手头在编java,就想既然java可以在windows的DOS操作下运行,是不是也可以在linux的terminal下编译执行呢?好奇心是最好的老师,网上丰富的资源帮助我很快的实现了这一...
分类:
编程语言 时间:
2014-10-20 23:18:52
阅读次数:
270
Solr4.8.0源码分析(12)之Lucene的索引文件(5)1. 存储域数据文件(.fdt和.fdx) Solr4.8.0里面使用的fdt和fdx的格式是lucene4.1的。为了提升压缩比,StoredFieldsFormat以16KB为单位对文档进行压缩,使用的压缩算法是LZ4,由于它...
分类:
Web程序 时间:
2014-10-20 23:06:39
阅读次数:
368
商业协作和项目管理平台-TeamLab网络视频会议软件-VMukti驰骋工作流程引擎-ccflow【免费】正则表达式测试工具-Regex-TesterWindows-Phone-7-SDKExcel-读写组件-ExcelLibrary.NET集成开发环境-MonoDevelop电话软交换机-Free...
昨天给公司同事们介绍了lucene相关度打分的公式,大家提到了一个问题,总感觉用相关度排序的时候,lucene会把查询关键字相邻紧密的doc排在前面,但是打分公式里面却没提到过这个因素,所以我现在来验证下查询词的紧密程度是否会影响打分。局部代码添加doc程序1 设置lucene保存field的所有信...
分类:
编程语言 时间:
2014-10-19 14:20:30
阅读次数:
150
1 查询的总时间等于每个segment查询时间的总和2 合并的步骤 (1)做flush操作的先生成一个新的segment (2)检查在新segment之前已经存在的segment的数量是否大于maxmerge(默认是10个),大于了进行合并 (3)合并完成又会生成一个新的segment,然后把...
分类:
Web程序 时间:
2014-10-19 14:17:33
阅读次数:
149
官方文档http://lucene.apache.org/core/4_9_0/core/org/apache/lucene/search/similarities/TFIDFSimilarity.htmlterm:不是单纯的key。是field-key,指定域下面的key影响打分的因素coord:...
分类:
Web程序 时间:
2014-10-19 14:14:04
阅读次数:
254
1 和lucene一样 支持全域索引2 对字符串域提供全文检索,对数字类型域提供范围查询3 采取和lucene类似的倒排表压缩方式4 和lucene的多级跳转表不同,egg采取的是B+树做索引,这种数据结构在应付大数量的存储上面更加适合。5 和lucene不一样, egg不仅仅是个全文检索引擎包,采...
分类:
Web程序 时间:
2014-10-19 14:13:43
阅读次数:
238
Lucene Vint压缩策略是,用每个字节的最高位做标志位,后7位为有效算术位,如果标志位为1,则说明后一个字节和当前字节是同一个数字,为0说明后一个字节是一个新的数字Lucene源代码中进行存储和读取是这样的。OutputStream是负责写:1/**Writesanintinavariable...
分类:
Web程序 时间:
2014-10-19 14:08:49
阅读次数:
170