Solr的schema.xml默认配置分词后条件取 OR例如:大众1.6T系统会自动分词为 【大众】 【1.6T】(ps:不同分词器分词效果不同) 会搜索出包含 【大众 OR 1.6T】 的结果。想要让Solr搜索默认为 【大众 AND 1.6T】则只需要修改solr\collection1\c.....
分类:
其他好文 时间:
2015-04-24 00:40:55
阅读次数:
221
安装环境的准备:
(这里直接给相关软件的版本号了)
centos 6.4
apache-tomcat-7.0.57
solr-4.10.4
jdk1.7.0_75
jdk和tomcat这里就不给安装方式了,要是不会直接百度各种有。
具体步骤:
1.下载solr-4.10.4,然后解压开我这里解压到 /usr/local/zi...
分类:
其他好文 时间:
2015-04-09 19:55:04
阅读次数:
221
--------------------------------------------------------
lucene的分词_分词器的原理讲解
--------------------------------------------------------
几个默认分词
SimpleAnalyzer
StopAnalyzer
WhitespaceAnalyzer(根据空格分...
分类:
Web程序 时间:
2015-04-08 11:01:44
阅读次数:
131
----------------------------------------------------------
lucene的分词_中文分词介绍
----------------------------------------------------------
Paoding:庖丁解牛分词器。已经没有更新了
mmseg:使用搜狗的词库
1.导入包(有两个包:1.带dic的,2...
分类:
Web程序 时间:
2015-04-08 10:59:40
阅读次数:
191
word分词是一个Java实现的分布式中文分词组件 1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar(国内不能访问) 2、下载并解压Java中文分词组件word-1.0-bin.zip 3、?将解压后的 Java中文分词...
分类:
其他好文 时间:
2015-04-07 21:54:58
阅读次数:
157
/*这段代码写的是JE分词器对于所输入的文本进行分词
* 这里还可以自己设定,分词的范围和单个词语,这样用户可以更加方便对想要
*处理的文本更加的灵活多变。
*这里我添加的例子是.addWord(“回首雅虎在中国”);
* */
package analyzer;
import jeasy.analysis.MMAnalyzer;
public class...
分类:
其他好文 时间:
2015-04-04 12:18:55
阅读次数:
137
最近一直在学Lucene3.5,感觉里面的知识真的很棒。今天就和大家一起分享一下我们自己来实现一个同义词的分词器。
一个分词器由多个Tokenizer和TokenFilter组成,这篇文章讲解的就是我们利用这两个特性实现自己的一个简单的同义词分词器,不妥之处请大家指出。
一、设计思路
什么叫同义词搜索呢?比如我们在搜 ”中国“ 这个词的时候,我们也可以搜索 ”大陆“ 这个词,后者搜索的要...
分类:
Web程序 时间:
2015-04-01 13:29:29
阅读次数:
300
转自:Banningshttp://blog.csdn.net/zhangao0086/article/details/6292950Analyzer(分词器)分词器能以某种规则对关键字进行分词,将分好的词放到目录中,以作为检索到的条件,在创建索引时会使用到分词器,在搜索时也将用到分词器,这两个地方...
分类:
Web程序 时间:
2015-03-17 21:31:22
阅读次数:
143
字段分析器(Analyzers)即用于文档索引也用于查询.一个分析器检查字段的文本,并生成一个token流.分析器可能是一个单独的类,也可能是一系列的tokenizer和filter的组合. 分词器把字段数据分解成词汇单元或者tokens,过滤器(filters)检查tokens流,并且保持它...
分类:
其他好文 时间:
2015-02-25 22:21:15
阅读次数:
231