安装maven打包工具wgethttp://mirror.bit.edu.cn/apache/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gz
tar-xfapache-maven-3.3.9-bin.tar.gz
mvapache-maven-3.3.9/usr/local/data/apache-maven
vim/etc/profile
exportMAVEN_HOME=/usr/local/data/apache-mave..
分类:
其他好文 时间:
2017-05-26 21:46:17
阅读次数:
1340
IKAnalyzer简介 IKAnalyzer简介 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 IKAnalyzer特性 a. 算法采用“正向迭代最细粒度切分算法”,支持细粒度和最 ...
分类:
其他好文 时间:
2017-05-24 15:52:18
阅读次数:
218
声明:我使用的Elasticsearch的版本是5.4.0,安装分词器前请先安装maven 一:安装maven https://github.com/apache/maven 说明: 安装maven需要java1.7+ 编译安装分词器时,可能会报错,报错信息如下: [ERROR] COMPILATI ...
分类:
其他好文 时间:
2017-05-24 00:45:40
阅读次数:
363
关于本项目中使用到的庖丁分词的总结: Paoding 详细介绍 庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paodin ...
分类:
编程语言 时间:
2017-05-22 11:59:31
阅读次数:
130
R语言中文分词包jiebaR的基础知识,为后续的工作做好准备 ...
分类:
编程语言 时间:
2017-05-21 19:40:38
阅读次数:
513
背景:分析用户在世界杯期间讨论最多的话题。 思路:把用户关于世界杯的帖子拉下来。然后做中文分词+词频统计,最后将统计结果简单做个标签云。效果例如以下: 兴许:中文分词是中文信息处理的基础。分词之后。事实上还有特别多有趣的文本挖掘工作能够做。也是个知识发现的过程,以后有机会再学习下。 * 中文分词经常 ...
分类:
编程语言 时间:
2017-05-20 00:04:56
阅读次数:
193
1.solr Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化。 Solr可以从Solr官方网站(http://lucene.apache.or ...
分类:
其他好文 时间:
2017-05-19 23:43:38
阅读次数:
290
为什么使用中文分词
下载jcseg
maven打包
导入jar包
编写solrconfigxml
编辑managed-schema文件
设置分词字段
测试为什么使用中文分词举个例子,假如输入“周杰伦的...
分类:
其他好文 时间:
2017-05-19 11:13:29
阅读次数:
286
要支持中文分词,还需要下载Coreseek,可以去官方搜索下载,这里我用的4.1 百度云下载地址: https://pan.baidu.com/s/1slNIyHf 在原安装目录下创建一个文本文档测试一下 然后进入mysql客户端创建一个表测试一下 编辑配置文件csft.conf 保存退出 测试完成 ...
分类:
其他好文 时间:
2017-05-17 18:30:23
阅读次数:
272
官方下载地址 http://sphinxsearch.com/downloads/release/ 百度云下载地址 https://pan.baidu.com/s/1gfmPbd5 进入sphinx安装后的目录下的bin目录执行命令创建索引 要支持中文分词,还需要下载Coreseek,sphinx标 ...
分类:
其他好文 时间:
2017-05-17 18:29:57
阅读次数:
213