使用开源工具Nutch和Lucene在局域网下搭建垂直搜索引擎。...
分类:
Web程序 时间:
2014-10-14 09:56:18
阅读次数:
376
1、IndexWriter lucene中最重要的的类之一,它主要是用来将文档加入索引,同时控制索引过程中的一些参数使用。 2、Analyzer 分析器,主要用于分析搜索引擎遇到的各种文本。常用的有StandardAnalyzer分析器,StopAn...
分类:
Web程序 时间:
2014-10-13 18:32:17
阅读次数:
238
写在前面的话: MySQL5.6支持全文检索,而且支持innodb类型表!!!支持中文检索!!!当然词与词之间要有空格等分割符分开才能识别,这一点中英文都一样1.建立索引利用navicat 在设计表中建立FullText类型索引即可,注意“栏位”指要建立索引的列的集合,可以一列或多列,建立好就可以对...
分类:
编程语言 时间:
2014-10-13 15:27:19
阅读次数:
294
引言早些时候分享过一份关于搜索引擎技术的PPT,这篇文章基本上是基于原来框架,在内容上做了一些改进和扩充。主要是对搜索引擎技术的各方面做一些简单的介绍和入门的指引。索引1. 需求与历史2. 搜索产品简单介绍3. 搜索技术 3.1 系统 3.2 数据 3.3 算法4. 开源方案5. 现状与未来需...
分类:
其他好文 时间:
2014-10-11 21:04:56
阅读次数:
435
在去年的时候,就想把lucene,solr,nutch和hadoop这几个东东给详细的介绍下,但由于时间的关系,我还是只写了两篇文章,分别介绍了一下lucene和solr,后来就没有在写了,但我心里还是期待的,虽然到现在我没有真正搞过nutch和hadoop实战项目,但公司马上就要做hadoop大数据的监控了,我一直都说,要做一个有准备的人,因此我从去年到现在从未停止过对hadoop相关技术的学习、思考、实战。...
分类:
Web程序 时间:
2014-10-11 10:15:45
阅读次数:
240
http://www.cnblogs.com/ibook360/archive/2011/10/19/2217638.htmlLucene3.0之结果排序(原理篇)传统上,人们将信息检索系统返回结果的排序称为"相关排序"(relevance ranking),隐含其中各条目的顺序反映结果和查询的相关...
分类:
Web程序 时间:
2014-10-10 22:54:54
阅读次数:
270
“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一...
分类:
其他好文 时间:
2014-10-10 21:09:54
阅读次数:
221
参考文档:MoreLikeThisMoreLikeThisHandler在solr中有两种方式实现MoreLikeThis:第一种:SearchHandler中的MoreLikeThisComponent,MoreLikeThis以组件的身份出现,适于简单应用。第二种:MoreLikeThisHan...
分类:
其他好文 时间:
2014-10-10 17:13:14
阅读次数:
326
原文来自于:http://blog.jobbole.com/77748/原文出处:李平的博客欢迎分享原创到伯乐头条前言一个成熟的大型网站(如淘宝、京东等)的系统架构并不是开始设计就具备完整的高性能、高可用、安全等特性,它总是随着用户量的增加,业务功能的扩展逐渐演变完善的,在这个过程中,开发模式、技术...
分类:
Web程序 时间:
2014-10-10 15:40:50
阅读次数:
340
通过学习Lucene3.5.0的doc文档,对不同release版本号 lucene版本号的API修改做分析。最后找到了有价值的修改信息。LUCENE-2302: Deprecated TermAttribute and replaced by a new CharTermAttribute. Th...
分类:
其他好文 时间:
2014-10-10 10:39:24
阅读次数:
324