solr7,刚出来,如何让它成为一个web工程在tomcat上部署它,是一个重要的问题,以下步骤分别解决这些问题,同时使用IKAnalyzer中文分词器分词器。 一,修改solr7的源代码,让core所在的目录默认位于{webRoot上下文}/solr下面,从而在tomcat上部署该应用时不用再去修 ...
分类:
其他好文 时间:
2017-10-24 14:03:02
阅读次数:
158
业务需求 1. 实现搜索引擎前缀搜索功能(中文,拼音前缀查询及简拼前缀查询功能) 2. 实现摘要全文检索功能,及标题加权处理功能(按照标题权值高内容权值相对低的权值分配规则,按照索引的相关性进行排序,列出前20条相关性最高的文章) 前缀搜索 中文搜索: 1. 搜索“刘”,匹配到“刘德华”、“刘斌”、 ...
分类:
其他好文 时间:
2017-10-09 21:06:06
阅读次数:
221
1. 什么是中文分词器 对于英文,是安装空格、标点符号进行分词 对于中文,应该安装具体的词来分,中文分词就是将词,切分成一个个有意义的词。 比如:“我的中国人”,分词:我、的、中国、中国人、国人。 2. Lucene自带的中文分词器 StandardAnalyzer: 单字分词:就是按照中文一个字一 ...
分类:
Web程序 时间:
2017-10-09 02:02:17
阅读次数:
336
1. 搜索 1.1 创建查询对象的方式 通过Query子类来创建查询对象 Query子类常用的有:TermQuery、NumericRangeQuery、BooleanQuery 特点:不能输入lucene的查询语法,不需要指定分词器 通过QueryParser来创建查询对象(常用) QueryPa ...
分类:
编程语言 时间:
2017-10-09 00:23:29
阅读次数:
192
一、安装。 去github下下载对应的ik版本: https://github.com/medcl/elasticsearch-analysis-ik/releases,并解压到对应的安装路径:../elasticsearch-5.5.3/plugin/ 使用elasticsearch-plugin ...
分类:
其他好文 时间:
2017-09-28 20:44:09
阅读次数:
1256
前面已经对”IK中文分词器“有了简单的了解: 但是可以发现不是对所有的词都能很好的区分,比如: 逼格这个词就没有分出来。 词库 实际上IK分词器也是根据一些词库来进行分词的,我们可以丰富这个词库。 IK分词器(IK Analysis for Elasticsearch)给了我们一个基本的配置: ht ...
分类:
其他好文 时间:
2017-09-27 11:31:31
阅读次数:
1238
这周学习了机器学习算法与编程实践第二章——中文文本分类的部分内容。该章以文本挖掘为大背景,以文本分类算法为中心,详细介绍了中文文本分类项目的相关知识点。 一、文本挖掘与文本分类的概念 被普遍认可的文本挖掘的定义如下:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用 ...
分类:
编程语言 时间:
2017-09-24 23:35:56
阅读次数:
278
二、SimpleAnalyzer 以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符。很明显不适用于中文环境。 package bond.lucene.analyzer; import org.apache.lucene.analysis.TokenStream; impor ...
分类:
Web程序 时间:
2017-09-21 19:18:30
阅读次数:
333
变更1 字段类型string 2.x中仅有String类型,可设置是否分词、是否索引及分词使用的分词器。 5.x中拆分为Keyword类型与Text类型,Keyword 不分词,可设置是否索引;Text分词,可设置是否索引及分词使用的分词器。 [String(Name = "Name",Index ...
分类:
Web程序 时间:
2017-09-13 19:28:03
阅读次数:
312
1.solr简介 采用Java开发,基于Luncene的全文搜索服务器,同时对其进行了扩展(扩展了面向抽象编程的地方,比如分词器,查询),提供了比Lucene更为丰富的查询语言(比如,过滤器),同时实现了可配置(跟hadoop整合,之前索引结构写在代码中,现在提前定义好)、可扩展并对查询性能进行了优 ...
分类:
其他好文 时间:
2017-09-10 12:31:05
阅读次数:
120