本文的目标有两个:1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也...
分类:
编程语言 时间:
2015-11-15 06:20:48
阅读次数:
422
好久没写博文了,最近一直加班做项目,正在做搜索方面的工作,因此测试了一下es,经过无数次失败,终于成功安装了es+ik从网上找了无数的安装方法都是一样,安装不成功es2.0安装es官方网站下载es2,解压后即可执行,可暂时不配置,本人只修改了数据和日志的路径下载ikhttps://gi..
分类:
其他好文 时间:
2015-11-14 07:39:34
阅读次数:
234
文本情感分类:文本情感分类(一):传统模型 http://spaces.ac.cn/index.php/archives/3360/测试句子:工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作分词工具测试结果结巴中文分词工信处/ 女干事/ 每月/ 经过/ 下属/ 科室/ 都/...
分类:
其他好文 时间:
2015-11-02 15:15:56
阅读次数:
789
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。一、版本信息solr版本:4.7.0需要ik-analyzer版本:IK Analyzer 2012FF_hf1ik-analyzer下载地址:...
分类:
其他好文 时间:
2015-10-31 14:17:21
阅读次数:
247
1、在Linux下安装ICTCLAS2015?1) 环境 Eclipse、Linux、ICTCLAS2015、jna-platform-4.1.0.jar( JNA类库)?2) 安装ICTCLAS2015 在Linux下的 Eclipse中新建MapReduce Project,假设工程名为RF.....
分类:
其他好文 时间:
2015-10-28 17:03:43
阅读次数:
299
中文分词系统工程报告一、研究背景 随着互联网的快速发展,信息也呈了爆炸式的增长趋势。在海量的信息中,我们如何快速抽取出有效信息成为了必须要解决的问题。由于信息处理的重复性,而计算机又善于处理机械的、重复的、有规律可循的工作,因此自然就想到了利用计算机来帮助人们进行处理。在用计算机进行自然语言处理时,...
分类:
其他好文 时间:
2015-10-26 23:50:30
阅读次数:
755
NLPIR(ICTCLAS),参见java实现NLPIR(ICTCLAS)分词:http://www.bubuko.com/infodetail-665665.html,词性标注使用北大词性标注集。在Linux系统中的使用方法:http://jingyan.baidu.com/article/915...
分类:
其他好文 时间:
2015-10-24 00:09:55
阅读次数:
744
搜索可以说是开发中很常见的场景了,同样这次也一样。。。 之前的组合多数是选择 Mysql + Sphinx ,这次因为工作原因不再使用这种组合,虽然是老牌组合,但是确实限制诸多,而且每次配环境也是个问题,挺烦的。。...
分类:
系统相关 时间:
2015-10-23 18:59:03
阅读次数:
331
SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。1.下载scws官方提供的类(这里使用的是pscws第四版的)http://www.xunsearch.com/scws/down/pscws4-20081221.tar.bz2下载...
分类:
Web程序 时间:
2015-10-23 18:14:13
阅读次数:
261
原文:http://blog.chinaunix.net/uid-20236190-id-1643667.html只是copy过来,防止原文被删掉,原文的排版格式更清晰,建议大家看原文。CRF简介Conditional Random Field:条件随机场,一种机器学习技术(模型)CRF由John ...
分类:
其他好文 时间:
2015-10-23 18:01:44
阅读次数:
194