最近刚好在学习搜索引擎分词,有了解一些分词插件,在这里给各位猿友分享一下。本文主要介绍四个分词插件(ICTCLAS、IKAnalyzer、Ansj、Jcseg)和一种自己写算法实现的方式,以及一些词库的推荐。一、ICTCLAS1.1、介绍中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Com...
分类:
其他好文 时间:
2016-04-19 06:32:52
阅读次数:
496
1.简介 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词 ...
分类:
其他好文 时间:
2016-04-18 20:50:03
阅读次数:
241
用户词典如下:舟曲县城@@ZQXC连夜@@LY中国科学院@@v工作@@t研究@@nb国科@t万科@y结果如下:Initial success!中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS。千万科学家未导入用户词典的分词结果是: 中国科学院/n 计算技术/ ...
分类:
其他好文 时间:
2016-04-18 20:43:54
阅读次数:
298
备注:win7 64位系统,netbeans编程 NLPIR分词系统,前身是2000年发布的ICTCLAS,2009年更为现名。张华平博士打造。 实现步骤: 1、在Netbeans中,文件→新建项目→java→java应用程序;项目名称:CWordSeg; 2、将NLPIR文件下…\sample\J ...
分类:
编程语言 时间:
2016-04-18 20:30:53
阅读次数:
644
备注:win7 64位系统,netbeans编程 基本代码框架参见我的另一篇文章:NLPIR分词功能 代码实现: 1 package cwordseg; 2 3 import java.io.UnsupportedEncodingException; 4 // import utils.System ...
分类:
其他好文 时间:
2016-04-18 20:19:38
阅读次数:
917
ICTCLAS计算所中文分词(当前最好的汉语词法分析器)系统特点:准确度高(98.5%),性能优越(500KB/s分词速度),词性标注(POS tagging)且支持多种标注集,支持用户自定义词典,支持用户自定义词性标注,支持多平台,支持模块组合关闭(在Configure.xml中设置),支持多编码 ...
分类:
其他好文 时间:
2016-04-18 19:00:04
阅读次数:
309
1.下载附加的中科院分词工具包(要下载的到我的博客里面免费下载即可)
2.解压后会看到如下几个文件夹
3.把java工程导入eclipse中,点击import,再选择existing project into workspace
4.导入sample文件下的JnaTest_NLPIR的java工程文件,按确定即可导入
5.在NlpirTest类下修改路径问题:...
分类:
编程语言 时间:
2016-04-10 14:57:49
阅读次数:
152
一、NLPIR是什么? NLPIR(汉语分词系统)由中科大张华平博士团队开发,主要功能包括:中文分词,词性标注,命名实体识别,用户词典功能,详情见官网:http://ictclas.nlpir.org/。 二、java环境下的使用: 主要参考了如下资料:http://www.360doc.com/c
分类:
编程语言 时间:
2016-02-28 09:48:22
阅读次数:
305
在Elasticsearch中,内置了很多分词器(analyzers),但默认的分词器对中文的支持都不是太好。所以需要单独安装插件来支持,比较常用的是中科院ICTCLAS的smartcn和IKAnanlyzer效果还是不错的,但是目前IKAnanlyzer还不支持最新的Elasticsearch2.2.0版本,但是smartcn中文分词器..
分类:
其他好文 时间:
2016-02-20 10:33:20
阅读次数:
228