这次更新,博客加入了搜索功能,使用的Lucene做的搜索,分词器采用的IKAnalyzer。因为IKAnalyzer没有在Maven的中央库中,所以我们得手动添加Jar包到我们的Maven项目中。1、首先我在项目根目录中创建一个lib文件夹,将jar包拷贝到lib文件夹下2、然后我们在maven的p...
分类:
编程语言 时间:
2016-01-12 11:21:14
阅读次数:
186
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。1.版本信息 solr版本:4.7.0 需要ik-analyzer版本:IK Analyzer 2012FF_hf12.配置步骤下载压缩解压.....
分类:
其他好文 时间:
2016-01-09 18:31:17
阅读次数:
156
使用标准分词器,如图: 使用word分词器 下载word-1.3.jar,注意solr的版本和word分词的版本 将文件word-1.3.jar拷贝至文件夹C:\workspace\Tomcat7.0\webapps\solr\WEB-INF\lib\下 修改如下文件C:\workspace\sol...
分类:
其他好文 时间:
2015-12-16 00:13:24
阅读次数:
1565
使用标准分词器,如图: 使用word分词器 下载word-1.3.jar,注意solr的版本和word分词的版本 将文件word-1.3.jar拷贝至文件夹C:\workspace\Tomcat7.0\webapps\solr\WEB-INF\lib\下 修改如下文件C:\workspace\sol...
分类:
其他好文 时间:
2015-12-16 00:09:18
阅读次数:
322
分类:程序语言|标签:C|日期: 2015-05-01 02:00:24 MMSeg4j是一款中文分词器,详细介绍如下: 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实...
分类:
Web程序 时间:
2015-12-08 01:59:11
阅读次数:
1234
Ansj的使用和相关资料下载参考:http://iamyida.iteye.com/blog/2220833 参考http://www.cnblogs.com/luxh/p/5016894.html 配置和solr和tomcat的1、从http://iamyida.iteye.com/...
分类:
其他好文 时间:
2015-12-03 21:14:38
阅读次数:
286
首先要明确一点,ElasticSearch是基于Lucene的,它的很多基础性组件,都是由ApacheLucene提供的,而es则提供了更高层次的封装以及分布式方面的增强与扩展。所以要想熟练的掌握的关于es中分词方面的知识,一定得先从Lucene抓起,否则只会是丈二和尚摸不着头脑,当然我们大多数开..
分类:
其他好文 时间:
2015-11-24 06:30:38
阅读次数:
163
本文的目标有两个:1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也...
分类:
编程语言 时间:
2015-11-15 06:20:48
阅读次数:
422
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。一、版本信息solr版本:4.7.0需要ik-analyzer版本:IK Analyzer 2012FF_hf1ik-analyzer下载地址:...
分类:
其他好文 时间:
2015-10-31 14:17:21
阅读次数:
247
Lucene分词器及高亮分词器在lucene中我们按照分词方式把文档进行索引,不同的分词器索引的效果不太一样,之前的例子使用的都是标准分词器,对于英文的效果很好,但是中文分词效果就不怎么样,他会按照汉字的字直接分词,没有词语的概念。使用分词的地方只需要把Analyzer实例化成我们第三方的分词器即可...
分类:
Web程序 时间:
2015-10-19 01:54:10
阅读次数:
215