Solr4.8.0源码分析(4)之Eclipse Solr调试环境搭建由于公司里的Solr调试都是用远程jpda进行的,但是家里只有一台电脑所以不能jpda进行调试,这是因为jpda的端口冲突。所以只能在Eclipse 搭建Solr的环境,折腾了一小时终于完成了。1. JDPA远程调试搭建换完成So...
分类:
系统相关 时间:
2014-08-19 23:45:25
阅读次数:
586
【Open Search产品评测】-- 来往,7天轻松定制属于自己的搜索引擎[使用背景] 相信很多人都遇到过要给网站或者app做一个搜索功能的需求,很久之前自己折腾过lucene,搞了很久,要自己搞中文分词(比如用中科院的那个)重写tokenizer,自己建索引,做实时更新流程,数据量大了还要考虑怎...
分类:
其他好文 时间:
2014-08-19 18:41:15
阅读次数:
205
1、索引的管理//指定索引库文件存放文件位置FSDirectory directory = FSDirectory.Open(new DirectoryInfo(this.IndexDataDir), new NativeFSLockFactory());//判断索引文件目录是否存在bool isE...
分类:
Web程序 时间:
2014-08-19 00:51:13
阅读次数:
352
抓取的网页内容中,有大部分会是相似的,抓取时就要过滤掉,开始考虑用VSM算法,后来发现不对,要比较太多东西了,然后就发现了simHash算法,这个算法的解释我就懒得copy了,simhash算法对于短数据的支持不好,但是,我本来就是很长的数据,用上! 源码实现网上也有不少,但是貌似都是同样的,...
分类:
Web程序 时间:
2014-08-17 23:59:23
阅读次数:
709
##总结一## 阅读别人的代码作为开发人员是一件经常要做的事情。一个是学习新的编程语言的时候通过阅读别人的代码是一个最好的学习方法,另外是积累编程经验。如果你有机会阅读一些操作系统的代码会帮助你理解一些...
分类:
其他好文 时间:
2014-08-17 21:28:23
阅读次数:
252
1.solr原理:我本人的理解:solr是为解决高性能的全文索引而出现的,它将用户输入的关键字进行智能分解,分解成一个个词,过滤掉一些多余的停词及空格等,比如,“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高,几乎 每个网页上都存在,所以搜索引擎开发人员都将这...
分类:
其他好文 时间:
2014-08-17 18:26:52
阅读次数:
200
1、 skiplist 巩固skiplist 跳跃表,简单理解是用空间换时间,来实现链表二分查找的数据结构可以用pre、next、blow、above实现四向的链表操作,可以简化search、insert、delete、get等操作时间复杂度:2、 lucene 巩固开源的全文检索引擎框架主要过程:...
分类:
Web程序 时间:
2014-08-17 11:45:02
阅读次数:
256
offset:比如要存储如下词:term,termagancy,termagant,terminal节省存储position:
分类:
其他好文 时间:
2014-08-17 02:27:31
阅读次数:
210
民以食为天,代码是程序员的食粮,优秀的开源项目和源码就如同美味的大餐,是码农茁壮成长的有力补给;自己写代码是亲自下厨秀手艺,阅读优秀源码是品尝大厨的杰作,对饥渴的码农而言,都是快感;还有哪个行业或领域有如开源软件这样的高度分享与奉献?向开源软件的贡献者致敬!希望有朝一日也能添砖加瓦,献绵薄之力;作为...
分类:
其他好文 时间:
2014-08-17 00:57:51
阅读次数:
313