由于solr5.3.1本身不支持中文分词,而msseg4j的分词效果不明显。因而采用IK进行分词,然而参考http://www.superwu.cn/2015/05/08/2134/在google上下载的jar包放到solr目录下直接报如下异常。严重: Servlet.service() for.....
分类:
其他好文 时间:
2015-12-15 20:55:46
阅读次数:
2494
分类:程序语言|标签:C|日期: 2015-05-01 02:00:24 MMSeg4j是一款中文分词器,详细介绍如下: 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实...
分类:
Web程序 时间:
2015-12-08 01:59:11
阅读次数:
1234
Ansj的使用和相关资料下载参考:http://iamyida.iteye.com/blog/2220833 参考http://www.cnblogs.com/luxh/p/5016894.html 配置和solr和tomcat的1、从http://iamyida.iteye.com/...
分类:
其他好文 时间:
2015-12-03 21:14:38
阅读次数:
286
####需要先安装几个R包,如果有这些包,可省略安装包的步骤。#install.packages("Rwordseg")#install.packages("tm");#install.packages("wordcloud");#install.packages("topicmodels")例子中...
分类:
编程语言 时间:
2015-11-15 23:17:03
阅读次数:
686
本文的目标有两个:1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也...
分类:
编程语言 时间:
2015-11-15 06:20:48
阅读次数:
422
好久没写博文了,最近一直加班做项目,正在做搜索方面的工作,因此测试了一下es,经过无数次失败,终于成功安装了es+ik从网上找了无数的安装方法都是一样,安装不成功es2.0安装es官方网站下载es2,解压后即可执行,可暂时不配置,本人只修改了数据和日志的路径下载ikhttps://gi..
分类:
其他好文 时间:
2015-11-14 07:39:34
阅读次数:
234
Part2分词处理在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包。参考文档:玩玩文本挖掘,这篇文章讲用R做文本挖掘很详尽,并且有一些相关资料的下载,值得看看!1. RWordseg功能说明文档可在http://download.csdn.net/det...
分类:
编程语言 时间:
2015-11-09 15:16:38
阅读次数:
345
文本情感分类:文本情感分类(一):传统模型 http://spaces.ac.cn/index.php/archives/3360/测试句子:工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作分词工具测试结果结巴中文分词工信处/ 女干事/ 每月/ 经过/ 下属/ 科室/ 都/...
分类:
其他好文 时间:
2015-11-02 15:15:56
阅读次数:
789
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。一、版本信息solr版本:4.7.0需要ik-analyzer版本:IK Analyzer 2012FF_hf1ik-analyzer下载地址:...
分类:
其他好文 时间:
2015-10-31 14:17:21
阅读次数:
247
1、在Linux下安装ICTCLAS2015?1) 环境 Eclipse、Linux、ICTCLAS2015、jna-platform-4.1.0.jar( JNA类库)?2) 安装ICTCLAS2015 在Linux下的 Eclipse中新建MapReduce Project,假设工程名为RF.....
分类:
其他好文 时间:
2015-10-28 17:03:43
阅读次数:
299