我的solr版本是5.3.0 1将jar包ik-analyzer-solr5-5.x.jar放入sor的web-inf的lib里面 2 在web-inf下面新建classes目录,再新增三个配置文件: IKAnalyzer.cfg.xml mydict.dic ext_stopword.dic 3在 ...
分类:
其他好文 时间:
2018-04-26 12:11:36
阅读次数:
177
第一步下载分词器https://pan.baidu.com/s/1X8v65YZ4gIkNQXsXfSULBw 第二歩打开已经解压的ik分词器文件夹 将ik-analyzer-solr5-5.x.jar,IKAnalyzer.cfg.xml复制到 apache-tomcat-8.5.24\webap ...
分类:
其他好文 时间:
2018-04-21 17:41:42
阅读次数:
185
使用IKAnalyzer 中文分析器。. 第一步: 把,IKAnalyzer2012FF_u1j 添加到sol/WEB-INF/lib 目录下。 第二步: 复制IKAnalyzer 的配置文件和自定义词典和停用词词典到solr 的classpath (classes),即solr\WEB-INF\c ...
分类:
Web程序 时间:
2018-04-03 10:54:31
阅读次数:
201
主要知识点: 知道IK默认的配置文件信息 自定义词库 一、ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用来配置自定义词库 main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起 quantif... ...
分类:
其他好文 时间:
2018-03-08 22:56:58
阅读次数:
198
来自于本人博客: lucene构建restful风格的简单搜索引擎服务 本人的博客如今也要改成使用lucene进行全文检索的功能,因此在这里把代码贴出来与大家分享 一,文件夹结构: 二,配置文件: 总共同拥有四个配置文件:bonecp-config.xml,IKAnalyzer.cfg.xml,lo ...
分类:
Web程序 时间:
2018-02-16 20:45:34
阅读次数:
219
操作系统:Win7 64位 Hadoop:2.7.4 中文分词工具包IKAnalyzer: 5.1.0 开发工具:Intellij IDEA 2017 Community 准备中文分词工具包 项目需要引入中文分词工具包IKAnalyzer,故第一步是对中文分词工具包的打包并安装到本地库,在这过程中参 ...
分类:
其他好文 时间:
2018-01-17 16:01:58
阅读次数:
248
solr分词过程: Solr Admin中,选择Analysis,在FieldType中,选择text_en 左边框输入 “冬天到了天气冷了小明不想上学去了”,点击右边的按钮,发现对每个字都进行分词。这不符合中国人的习惯。 solr6.3.0自带中文分词包,在 \solr-6.3.0\contrib ...
分类:
其他好文 时间:
2018-01-10 15:53:36
阅读次数:
945
一. 问题: 在使用solr时, 分词器解析中文的时候, 是一个一个字解析的. 这并不是我们想要的结果. 而在lucene中, 使用的中文分词器是 IKAnalyzer. 那么在solr里面, 是不是任然可以用这个呢. 二. 整合 ik 1. 修改schema配置文件 打开如下路径中的managed ...
分类:
其他好文 时间:
2017-12-27 23:54:07
阅读次数:
210
solr7,刚出来,如何让它成为一个web工程在tomcat上部署它,是一个重要的问题,以下步骤分别解决这些问题,同时使用IKAnalyzer中文分词器分词器。 一,修改solr7的源代码,让core所在的目录默认位于{webRoot上下文}/solr下面,从而在tomcat上部署该应用时不用再去修 ...
分类:
其他好文 时间:
2017-10-24 14:03:02
阅读次数:
158
1、基本介绍 随着分词在信息检索领域应用的越来越广泛,分词这门技术对大家并不陌生。对于英文分词处理相对简单,经过拆分单词、排斥停止词、提取词干的过程基本就能实现英文分词,单对于中文分词而言,由于语义的复杂导致分词并没英文分词那么简单,一般都是通过相关的分词工具来实现,目前比较常用的有庖丁分词以及IK ...
分类:
Web程序 时间:
2017-10-12 19:12:46
阅读次数:
220