solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。一、版本信息solr版本:4.7.0需要ik-analyzer版本:IK Analyzer 2012FF_hf1ik-analyzer下载地址:...
分类:
其他好文 时间:
2014-12-12 16:35:14
阅读次数:
273
首先介绍下在lucene中attributeSource的类层次:
org.apache.lucene.util.AttributeSource
· org.apache.lucene.analysis.TokenStream (implementsjava.io.Closeable)
· org.apache.lucene.analysis.NumericTok...
分类:
其他好文 时间:
2014-12-11 19:14:11
阅读次数:
388
IK分词全名为IK Analyzer,是由java编写的中文分词工具包,目前在lucene以及solr中用的比较多,本系列的文章主要对ik的核心源码进行解析讲解,与大家分享,如果有错误的地方还望指教。
先来个整体概况:
其实从上面的图可以看出,真实的ik的代码其实并不多,这样给我们开始接触心里压力就小的多。
先打开IKAnalzyerDemo.java文件,先大体看看IK的工作流...
分类:
其他好文 时间:
2014-12-09 19:46:10
阅读次数:
287
K-based Numbers
Time Limit:1000MS Memory Limit:65536KB 64bit IO Format:%I64d & %I64u
Submit Status
Description
Let’s consider K-based numbers, containing exactly N digits. We define a nu...
分类:
其他好文 时间:
2014-11-10 10:05:32
阅读次数:
158
搭建SolrCloud ,zookeeper ,HDFS ,IK中文分词器,注意事项...
分类:
其他好文 时间:
2014-11-04 15:08:28
阅读次数:
628
没有开头语我会死啊~好的,IK是啥、怎么用相信看这篇文章的人都不需要我过多解释了,我也解释不好。下面开始正文: IK的官方结构图: 从上至下的来看: 最上层是我们不需要过度关心的,它们是一些Adapter供Lucen...
分类:
其他好文 时间:
2014-11-03 22:45:07
阅读次数:
386
搜索引擎Solr4.10.1笔记(二)——IK Analyzer中文分词
注意,IK Analyzer需要使用其下载列表中的 IK Analyzer 2012FF_hf1.zip,否则在和Lucene 4.10配合使用时会报错。 我使用 intellij IDEA 12进行的测试。 建立java项目 建立项目HelloLucene,导入Lucene的几个库。“...
分类:
其他好文 时间:
2014-10-02 22:50:53
阅读次数:
182
Elasticsearch安装中文分词插件ik...
分类:
其他好文 时间:
2014-09-19 23:56:56
阅读次数:
490
多核心的概念
多核心说白了就是多索引库。也可以理解为多个"数据库表"
说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索,不使用多核也没问题,这样带来的问题是 indexs文件很多,而且产品的索引文件和会员信息的索引文件混在一起,备份也是个问题。 如果使用了多核,那就很轻松了,产...
分类:
其他好文 时间:
2014-09-16 10:24:30
阅读次数:
264