安装步骤 https://github.com/medcl/elasticsearch-analysis-ik 以插件形式安装: ...
分类:
其他好文 时间:
2018-01-21 13:46:05
阅读次数:
153
http://www.iteye.com/news/27484 1. Lucene Lucene的开发语言是Java,也是Java家族中最为出名的一个开源搜索引擎,在Java世界中已经是标准的全文检索程序,它提供了完整的查询引擎和索引引擎,没有中文分词引擎,需要自己去实现,因此用Lucene去做一个 ...
分类:
其他好文 时间:
2018-01-19 19:56:12
阅读次数:
211
操作系统:Win7 64位 Hadoop:2.7.4 中文分词工具包IKAnalyzer: 5.1.0 开发工具:Intellij IDEA 2017 Community 准备中文分词工具包 项目需要引入中文分词工具包IKAnalyzer,故第一步是对中文分词工具包的打包并安装到本地库,在这过程中参 ...
分类:
其他好文 时间:
2018-01-17 16:01:58
阅读次数:
248
http://blog.csdn.net/guixunlong/article/details/8925990 从头开始编写基于隐含马尔可夫模型HMM的中文分词器之一 - 资源篇 首先感谢52nlp的系列博文(http://www.52nlp.cn/),提供了自然语言处理的系列学习文章,让我学习到了 ...
分类:
其他好文 时间:
2018-01-13 18:44:16
阅读次数:
191
solr分词过程: Solr Admin中,选择Analysis,在FieldType中,选择text_en 左边框输入 “冬天到了天气冷了小明不想上学去了”,点击右边的按钮,发现对每个字都进行分词。这不符合中国人的习惯。 solr6.3.0自带中文分词包,在 \solr-6.3.0\contrib ...
分类:
其他好文 时间:
2018-01-10 15:53:36
阅读次数:
945
一、安装实例 1、创建实例目录 [root@node004]# mkdir -p /usr/local/solr/home/jonychen 2、复制实例相关配置文件 [root@node004]# cp /usr/local/solr/home/configsets/_default/conf - ...
分类:
其他好文 时间:
2018-01-09 22:08:58
阅读次数:
751
安装jieba中文分词命令:pip install jieba 简单的例子: import jiebaseg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("Full Mode:", "/ ".join(seg_list)) # 全模式seg_li ...
分类:
编程语言 时间:
2018-01-01 11:47:10
阅读次数:
196
api参考地址:https://github.com/fxsjy/jieba/blob/master/README.md 安装自行百度 基本用法: 也可以自定义词组 词性标注 ...
分类:
编程语言 时间:
2017-12-28 14:03:16
阅读次数:
187
一. 问题: 在使用solr时, 分词器解析中文的时候, 是一个一个字解析的. 这并不是我们想要的结果. 而在lucene中, 使用的中文分词器是 IKAnalyzer. 那么在solr里面, 是不是任然可以用这个呢. 二. 整合 ik 1. 修改schema配置文件 打开如下路径中的managed ...
分类:
其他好文 时间:
2017-12-27 23:54:07
阅读次数:
210
主要分为两大类 1. 字符串匹配(扫描字符串),发现子串与词匹配,就算是匹配 这类分词通常加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等策略。 优点:速度快、O(n)时间复杂度。 缺点:歧义和未登陆词处理不好。 歧义的例子很简单"长春市/长春/药店" "长春/市长/春药/店". 未登 ...
分类:
其他好文 时间:
2017-12-27 14:26:23
阅读次数:
321