1. 什么是中文分词器 对于英文,是安装空格、标点符号进行分词 对于中文,应该安装具体的词来分,中文分词就是将词,切分成一个个有意义的词。 比如:“我的中国人”,分词:我、的、中国、中国人、国人。 2. Lucene自带的中文分词器 StandardAnalyzer: 单字分词:就是按照中文一个字一 ...
分类:
Web程序 时间:
2017-10-09 02:02:17
阅读次数:
336
1. 搜索 1.1 创建查询对象的方式 通过Query子类来创建查询对象 Query子类常用的有:TermQuery、NumericRangeQuery、BooleanQuery 特点:不能输入lucene的查询语法,不需要指定分词器 通过QueryParser来创建查询对象(常用) QueryPa ...
分类:
编程语言 时间:
2017-10-09 00:23:29
阅读次数:
192
完成需求:使用Lucene完成对数据库中图书信息的索引和搜索功能。 1. 环境准备及工程搭建 1.1 环境准备 mysql5.5+java8+lucene4.10.3(目前最新7.0.1,这里够用就好) 需要注意:lucene从4.8版本以后,必须使用jdk1.7及以上。 1.2 工程搭建 Mysq ...
分类:
其他好文 时间:
2017-10-08 19:01:20
阅读次数:
210
1. 为什么要选择ElasticSearch 1)ElasticSearch 优点: 分布式、实时的、Push replication 完全支持Apache Lucene的接近实时的搜索 处理多租户(multitenancy)不需要特殊配置,而Solr则需要更多的高级设置 Gateway概念,使备份 ...
分类:
其他好文 时间:
2017-10-04 20:46:43
阅读次数:
967
1 全文检索工具,方便实现全文检索功能。 2 全文检索, 先对要搜索的文档进行分词,形成索引,根据索引经行检索。 3 全文检索流程 索引流程:采集数据, 处理数据,创建索引 搜索流程:输入查询条件,Lucene查询器查询索引, 索引库取出结果 4 IndexWriter是索引过程的核心组件,通过In ...
分类:
Web程序 时间:
2017-10-04 01:01:44
阅读次数:
332
mapping的写入与查看 首先创建一个索引: 现在只创建了一个索引,并没有设置mapping,查看一下索引mapping的内容: 可以看到mapping为空,我们只创建了一个索引,并没有进行mapping配置,mapping自然为空。 下面给productindex这个索引加一个type,type ...
分类:
移动开发 时间:
2017-09-28 11:34:20
阅读次数:
246
jieba是python下的一个检索库, 有人将这个库移植到了asp.net 平台下, 完全可以替代lucene.net以及盘古分词的搭配 之所以写这个, 其实是因为昨天面试时, 被问到网站的关键字检索你怎么做?我就是说了下sql模糊查询以及sql语句优化, 缓存。以前接触过关键字分词, 但是在.n ...
分类:
Web程序 时间:
2017-09-24 17:23:29
阅读次数:
164
二、SimpleAnalyzer 以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符。很明显不适用于中文环境。 package bond.lucene.analyzer; import org.apache.lucene.analysis.TokenStream; impor ...
分类:
Web程序 时间:
2017-09-21 19:18:30
阅读次数:
333
讲解之前,先来分享一些资料 首先呢,学习任何一门新的亦或是旧的开源技术,百度其中一二是最简单的办法,先了解其中的大概,思想等等。这里就贡献一个讲解很到位的ppt。已经被我转成了PDF,便于搜藏。 其次,关于第一次编程初探,建议还是查看官方资料。百度到的资料,目前Lucene已经更新到4.9版本,这个 ...
分类:
编程语言 时间:
2017-09-18 01:15:51
阅读次数:
268