SCWS是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点,但是如何通过SCWS实现呢?...
分类:
Web程序 时间:
2014-10-11 00:49:54
阅读次数:
355
#用于下载安装rJava 和 Rwordseg,如果安装了就注释掉install.packages("rJava")install.packages("Rwordseg", repos="http://R-Forge.R-project.org", type="source")#导入rJava 和R...
分类:
其他好文 时间:
2014-10-08 09:46:45
阅读次数:
230
酒店评论情感分析系统——用ictclas4j进行中文分词,并去除停用词 ictclas4j是中科院计算所开发的中文分词工具ICTCLAS的Java版本,因其分词准确率较高,而备受青睐。1. 下载ictclas4j 后面的附件中,我有放上ictclas4j的源码包ictclas4j.zip2. ...
分类:
其他好文 时间:
2014-10-03 22:56:25
阅读次数:
532
====================问题描述==================== 最近的安卓开发中需要用到中文分词,就用了中科院的这个分词系统,但是按java应用程序方法引入API中的文件(DATA,ICTCLAS,Configure)等程序总会报错,请问有人在安卓平台上用过吗?麻烦告诉我该...
分类:
移动开发 时间:
2014-09-30 16:38:09
阅读次数:
156
近日需要对大众点评网60万+的景点评论进行语义分析,所以必须使用分词工具,刚刚开始时我是选择使用NLPIR汉语分词系统(又名ICTCLAS2014),NLPIR的教程在[分词]NLPIR/ICTCLAS2014分词系统的C++ API 在Windows下初次使用,但是直观上感觉分词效果不怎么理想.....
分类:
编程语言 时间:
2014-09-20 09:57:17
阅读次数:
342
Elasticsearch安装中文分词插件ik...
分类:
其他好文 时间:
2014-09-19 23:56:56
阅读次数:
490
nltk同时也能处理中文的场景,只要做如下改动: 使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理,使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 to be continue......
分类:
其他好文 时间:
2014-09-17 10:30:22
阅读次数:
275
全文索引服务solr搭建。公司最近要用到。我又是个java小白。做环境的什么的不再行。就此几下操作。
大部分是看官方提供的reference.pdf来做的,也google了不少。公司还有个大哥指点。。。。笨的可以。
环境如下
OS: centos6.5
java环境: jdk1.7.0_51
tomcat版本: apache-tomcat-7.0.55
solr版本: solr...
分类:
其他好文 时间:
2014-09-13 22:49:56
阅读次数:
430
基本原理词典的存储基于规则的分词词性标注未登录词识别关键词提取:TF-IDF
分类:
其他好文 时间:
2014-09-10 21:01:11
阅读次数:
162
1. IKAnalyzer3.0介绍 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词...
分类:
其他好文 时间:
2014-09-10 12:47:00
阅读次数:
374