原来的string docvalues使用utf-8编码,载入时转码花费大量时间,我们把转码实现从new String(bytes, "UTF-8")改用lucene的bytesRef.utf8ToString,降低了大约十秒的时间。想进一步优化,我们使用UTF-16LE编码,解码很easy甚至仅仅...
分类:
其他好文 时间:
2014-07-09 21:19:59
阅读次数:
226
《RESTful Web APIs中文版》基本信息原书名:RESTful Web APIs原出版社: O'Reilly Media作者: Leonard Richardson Mike Amundsen译者: 赵震一 李哲出版社:电子工业出版社ISBN:9787121231155上架时间:2014-...
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:
其他好文 时间:
2014-07-08 23:15:59
阅读次数:
231
假如你像用lucene来作分组,比如按类别分组,这种功能,好了你压力大了,lucene本身是不支持分组的。当你想要这个功能的时候,就可能会用到基于lucene的搜索引擎solr。不过也可以通过编码通过FieldCache和单字段,对索引进行分组,比如:想构造类别树。大类里面还有小类那种。这个功能实现...
分类:
其他好文 时间:
2014-07-08 00:32:03
阅读次数:
247
引言如果你对naive bayes认识还处于初级阶段,只了解基本的原理和假设,还没有实现过产品级的代码,那么这篇文章能够帮助你一步步对原始的朴素贝叶斯算法进行改进。在这个过程中你将会看到朴素贝叶斯假设的一些不合理处以及局限性,从而了解为什么这些假设在简化你的算法的同时,使最终分类结果变得糟糕,并针对...
分类:
其他好文 时间:
2014-07-07 10:44:41
阅读次数:
171
6.3内存索引库
6.3.1特点
在内存中开辟一块空间,专门为索引库存放。这样有以下几个特征:
1) 因为索引库在内存中,所以访问速度更快。
2) 在程序退出时,索引库中的文件也相应的消失了。
3) 如果索引库比较大,必须得保证足够多的内存空间。
6.3.2编码
在cn.hqu.directory 下新建:DirectoryT...
分类:
其他好文 时间:
2014-07-06 08:11:33
阅读次数:
188
转:http://www.ibm.com/developerworks/cn/web/wa-spring3webserv/在 Java? 中,您可以使用以下几种方法来创建 RESTful Web Service:使用 JSR 311(311)及其参考实现 Jersey、使用 Restlet 框架和从...
分类:
编程语言 时间:
2014-07-05 18:42:16
阅读次数:
206
一、Solr学习相关资料
1、官方材料
(1)快速入门:http://lucene.apache.org/solr/4_9_0/tutorial.html,以自带的example项目快速介绍发Solr的基础使用。
(2)API:http://lucene.apache.org/solr/4_9_0/index.html
(3)reference:PDF格式,apache-solr-ref-...
分类:
其他好文 时间:
2014-07-03 16:56:58
阅读次数:
245
expressjs是一个基于nodejs的web开发框架:http://expressjs.com/,这篇博客目的就是用expressjs写一个关于products的最简单的RESTful API...
http://codeplanet.io/principles-good-restful-api-design/hateoashttp://en.wikipedia.org/wiki/HATEOAShttp://en.wikipedia.org/wiki/RSDLhttp://www.doc88.c...