一、安装环境图1-1 Tomcat和Solr的版本 我本机目前使用的Java版本为JDK 1.8,因为Solr 4.9要求Java版本为1.7+,请注意。二、Solr部署到Tomcat流程图1-2 Tomcat安装目录 1、如图1-2所示,为Tomcat的解压目录;图1-3 Tomcat首页 2、在...
分类:
Web程序 时间:
2014-10-27 00:15:49
阅读次数:
252
一、为何开博客写《Lucene/Solr搜索引擎开发系列》 本人毕业于2011年,2011-2014的三年时间里,在深圳前50强企业工作,从事工业控制领域的机器视觉方向,主要使用语言为C/C++;现就职于一家大型国企所属电子商务公司,主要使用语言为Java,负责公司新一代搜索引擎的开发工作,故开此系...
分类:
Web程序 时间:
2014-10-27 00:09:52
阅读次数:
328
多级跳跃表是保存在tim文件里的。tip是term index,tim是term dictionary。记忆方法是,p是pointer因此是term index。这个类会保存多个level的last变量和cur变量,同一时候使用RAMOutputStream数组缓存不同级别跳跃表的内容,一个term...
分类:
Web程序 时间:
2014-10-26 20:59:48
阅读次数:
181
一些常见的NLP任务的开源/免费工具,*Computational Linguistics ToolboxCLT http://complingone.georgetown.edu/~linguist/compling.htmlGATE http://gate.ac.uk/Natural Langu...
分类:
其他好文 时间:
2014-10-25 22:51:10
阅读次数:
236
各种工具包的有效利用可以使研究者事半功倍。以下是NLP版版友们提供整理的NLP研究工具包。同时欢迎大家提供更多更好用的工具包,造福国内的NLP研究。*NLP ToolboxCLThttp://complingone.georgetown.edu/~linguist/compling.htmlGATE...
分类:
其他好文 时间:
2014-10-25 22:44:19
阅读次数:
233
3.4Lucene工具箱之OpenBitSet在Lucene中,DocId具有这样的特征:唯一/递增。而且在搜索的过程,不同term之间的DocId集合进行逻辑运算的需求非常之多。OpenBitSet正是集合运算的利器。3.4.1OpenBitSet的原理假设有一个byte,一共有8个二进制位,如下图:0000000001234567如果每..
分类:
Web程序 时间:
2014-10-25 12:01:04
阅读次数:
306
Investigating issues with Unmanaged Memory. First steps.
分类:
其他好文 时间:
2014-10-25 09:14:51
阅读次数:
245
一、本章思维导图 二、Solr的安装和部署 1.介绍Lucene和Solr分别是什么的? Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文...
分类:
Web程序 时间:
2014-10-25 00:46:25
阅读次数:
248
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:
其他好文 时间:
2014-10-24 20:43:52
阅读次数:
270
怎样处理海量数据在实际的工作环境下,很多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有下面几个方面:一、数据量过大,数据中什么情况都可能存在。假设说有10条数据,那么大不了每条去逐一检查,人为处理,假设有上百条数据,也能够考虑,假设数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具...
分类:
其他好文 时间:
2014-10-24 20:31:11
阅读次数:
313