IKAnalyzer简介 IKAnalyzer简介 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 IKAnalyzer特性 a. 算法采用“正向迭代最细粒度切分算法”,支持细粒度和最 ...
分类:
其他好文 时间:
2017-05-24 15:52:18
阅读次数:
218
声明:我使用的Elasticsearch的版本是5.4.0,安装分词器前请先安装maven 一:安装maven https://github.com/apache/maven 说明: 安装maven需要java1.7+ 编译安装分词器时,可能会报错,报错信息如下: [ERROR] COMPILATI ...
分类:
其他好文 时间:
2017-05-24 00:45:40
阅读次数:
363
关于本项目中使用到的庖丁分词的总结: Paoding 详细介绍 庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paodin ...
分类:
编程语言 时间:
2017-05-22 11:59:31
阅读次数:
130
R语言中文分词包jiebaR的基础知识,为后续的工作做好准备 ...
分类:
编程语言 时间:
2017-05-21 19:40:38
阅读次数:
513
背景:分析用户在世界杯期间讨论最多的话题。 思路:把用户关于世界杯的帖子拉下来。然后做中文分词+词频统计,最后将统计结果简单做个标签云。效果例如以下: 兴许:中文分词是中文信息处理的基础。分词之后。事实上还有特别多有趣的文本挖掘工作能够做。也是个知识发现的过程,以后有机会再学习下。 * 中文分词经常 ...
分类:
编程语言 时间:
2017-05-20 00:04:56
阅读次数:
193
1.solr Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化。 Solr可以从Solr官方网站(http://lucene.apache.or ...
分类:
其他好文 时间:
2017-05-19 23:43:38
阅读次数:
290
为什么使用中文分词
下载jcseg
maven打包
导入jar包
编写solrconfigxml
编辑managed-schema文件
设置分词字段
测试为什么使用中文分词举个例子,假如输入“周杰伦的...
分类:
其他好文 时间:
2017-05-19 11:13:29
阅读次数:
286
要支持中文分词,还需要下载Coreseek,可以去官方搜索下载,这里我用的4.1 百度云下载地址: https://pan.baidu.com/s/1slNIyHf 在原安装目录下创建一个文本文档测试一下 然后进入mysql客户端创建一个表测试一下 编辑配置文件csft.conf 保存退出 测试完成 ...
分类:
其他好文 时间:
2017-05-17 18:30:23
阅读次数:
272
官方下载地址 http://sphinxsearch.com/downloads/release/ 百度云下载地址 https://pan.baidu.com/s/1gfmPbd5 进入sphinx安装后的目录下的bin目录执行命令创建索引 要支持中文分词,还需要下载Coreseek,sphinx标 ...
分类:
其他好文 时间:
2017-05-17 18:29:57
阅读次数:
213
1、scws简单介绍 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开。 所以 ...
分类:
Web程序 时间:
2017-05-16 12:52:13
阅读次数:
155