lucene4.0版本号以后 已经用TokenStreamComponents 代替了TokenStream流。里面包含了filter和tokenizer 在较复杂的lucene搜索业务场景下,直接网上下载一个作为项目的分词器,是不够的。那么怎么去评定一个中文分词器的好与差:一般来讲。有两个点。词库 ...
分类:
Web程序 时间:
2017-04-30 12:35:14
阅读次数:
152
public static void search(String indexDir,String q)throws Exception{ Directory dir=FSDirectory.open(Paths.get(indexDir)); IndexReader reader=Directory... ...
分类:
Web程序 时间:
2017-04-23 13:19:27
阅读次数:
198
1.下载IK分词器支持5.5.4的http://download.csdn.net/detail/wang_keng/95354912.需要把分析器的jar包添加到solr工程中的tomcat的WEB-INF/lib下cpIKAnalyzer2012FF_u2.jar/usr/local/solr/tomcat/webapps/solr/WEB-INF/lib/3.需要把IKAnalyzer需要的扩展词典及停用词词典、配置..
分类:
其他好文 时间:
2017-04-22 22:52:40
阅读次数:
213
1、安装icu http://blog.csdn.net/liyuwenjing/article/details/6105388 2、安装pyicu https://anaconda.org/kalefranz/pyicu conda安装是解决问题的利器 3、安装分词器 pip install py ...
分类:
编程语言 时间:
2017-04-18 14:20:51
阅读次数:
215
cppjieba分词包主要提供中文分词、关键词提取、词性标注三种功能 一、分词 cppjieba分词用的方法是最大概率分词(MP)和隐马尔科夫模型(HMM),以及将MP和HMM结合成的MixSegment分词器。除此之外,cppjieba支持三种模式的分词: 精确模式,试图将句子最精确地切开,适合文 ...
分类:
其他好文 时间:
2017-04-14 23:46:05
阅读次数:
781
TF-IDF 1. 概念 2. 原理 3. java代码实现思路 数据集: 三个MapReduce 第一个MapReduce:(利用ik分词器,将一篇博文,也就是一条记录中的content进行词的拆分) 第一个MapReduce最终运行的结果: 1. 得到数据集中微博的总数; 2. 得到每个词在当前 ...
分类:
编程语言 时间:
2017-04-13 08:46:07
阅读次数:
299
solr分词,就是solr配置的字段类型根据注册的分词文件分词断句的行为。 例如:你们村村通工程知道吗? 不分词的时候会是这样: 分词的话,我们把“村村通工程 ”名词化,分词结果为: 说说中文分词 中文分词器有多中,常用的有 IKAnalyzer、 mmseg4j。 前者最新版本更新到2012年,所 ...
分类:
其他好文 时间:
2017-02-27 15:48:01
阅读次数:
221
在上一篇随笔中我们提到schema.xml中<field/>元素标签的配置,该标签中有四个属性,分别是name、type、indexed与stored,这篇随笔将讲述通过设置type属性的值实现中文分词的检索功能 首先下载IK中文分词项目,下载地址https://code.google.com/ar ...
分类:
其他好文 时间:
2017-02-26 17:25:49
阅读次数:
559
前提 Elasticsearch之中文分词器插件es-ik的自定义词库 先声明,热更新词库,需要用到,web项目和Tomcat。不会的,请移步 Eclipse下Maven新建项目、自动打依赖jar包(包含普通项目和Web项目) 在Eclipse里连接Tomcat部署到项目(maven项目和web项目 ...
分类:
其他好文 时间:
2017-02-25 12:27:25
阅读次数:
3824
前提 什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch之停用词 Elasticsearch之中文分词器 Elasticsearch之几个重要的分词器 elasticsearch官方默认的分词插件 1、elastics ...
分类:
其他好文 时间:
2017-02-24 22:12:56
阅读次数:
787