http://www.nowamagic.net/librarys/veda/detail/1767Hadoop是什么Hadoop原来是Apache Lucene下的一个子项目,它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来,Hadoop是一个可以更容易开发和...
分类:
其他好文 时间:
2014-11-05 10:48:11
阅读次数:
181
http://www.oschina.net/p/solrApache Solr (读音: SOLer) 是一个开源的搜索服务器。Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现。Apache Solr 中存储的资源是以 Document 为对象进行存储的...
分类:
其他好文 时间:
2014-11-05 10:24:48
阅读次数:
166
解析(Analysis)
当一个实体域被Lucene索引时,往往还会经历一个语法分析(Parsing)和转换(Conversion)的步骤,这些步骤被称为解析。在前文中,我们提到过Hibernate Search会默认对字符串类型的实体域进行分词,而这个分词过程就需要用到解析器(Analyzer)。在需要对实体域进行排序的场合,需要禁用这个默认的分词行为。
在解析过程中,还可以借助Ap...
分类:
Web程序 时间:
2014-11-04 11:09:20
阅读次数:
279
没有开头语我会死啊~好的,IK是啥、怎么用相信看这篇文章的人都不需要我过多解释了,我也解释不好。下面开始正文: IK的官方结构图: 从上至下的来看: 最上层是我们不需要过度关心的,它们是一些Adapter供Lucen...
分类:
其他好文 时间:
2014-11-03 22:45:07
阅读次数:
386
原来在别的公司负责过文档检索模块的维护(意思就是不是俺开发的啦)。所以就稍微接触和研究了下文档检索。
文档检索其实是全文检索,是通过一种技术把N多文档进行一定规律的切割归类,然后创建易于搜索的索引式文件,然后搜索具有某些规律的文档时,能够通过快速定位索引,然后根据索引提供的信息精确定位到文档从而实现迅速找到文档。这个文档一般成为条目。
上家公司的时候使用的是Lucene加上Zoie实现的。lu...
分类:
数据库 时间:
2014-11-03 22:44:38
阅读次数:
609
lucene是一个开源的全文检索引擎工具包,但它不是一个成型的搜索引擎,它的功能就是负责将文本数据按照某种分词算法进行分词,分词后的结果存储在索引库中,然后根据关键字从索引库检检索。那么应该如何使用呢?1. 从官网下载http://lucene.apache.org/并解压缩2.我们可以从官网给的示...
分类:
编程语言 时间:
2014-11-03 22:25:14
阅读次数:
228
AttributeAttribute定义了XML的属性BranchBranch为能够包含子节点的节点如XML元素(Element)和文档(Docuemnts)定义了一个公共的行为,CDATACDATA 定义了XML CDATA 区域CharacterDataCharacterData是一个标识借口,...
分类:
其他好文 时间:
2014-11-03 16:09:57
阅读次数:
293
发表在《程序猿》2007年7月刊上。不log上写帖子不用考虑版面限制,所以这里的帖子比发表的啰嗦点。赵健平编辑,Jacky,和刘未鹏都给了我非常多帮助,在这里一并谢了。免费的Scheme实现非常多。我用的是PLT Scheme,能够到这里下载。PLT Scheme的IDE(Dr. Scheme)支持...
分类:
其他好文 时间:
2014-11-03 12:51:07
阅读次数:
348
高级映射
前面介绍的可搜索的域基本上都是字符串类型,实际上可搜索的类型是非常丰富的。
本文会介绍以下几个方面的内容:
Lucene对实体进行索引的过程借助Solr组件对这个过程的改进修改域的重要程度,从而让基于相关度的排序更加有意义动态决定是否对一个实体类型进行索引
桥接器(Bridges)
实体类型中可以使用的类型是无穷无尽的,但是对于Lucene索引而言,任何类型...
分类:
Web程序 时间:
2014-11-03 11:36:55
阅读次数:
301
solr版本:4.10.1tomcat版本:7.0.23jdk版本:1.7.0_01注:solr明确要求jdk版本在1.7及以上tomcat和jdk安装就不说了。下载solr:http://lucene.apache.org/solr/downloads.html解压solr-4.10.1,将:so...
分类:
其他好文 时间:
2014-11-02 20:51:58
阅读次数:
210