在本系列的前面一篇文章中, 我们介绍了中文分词. 因为"中文"这门语言主要是"词语"表达的语言, 一个句子中间没有空格停顿, 所以我们在分析处理一段话, 或者一篇文章时, 总是把每一个句中根据最合适的语境拆分成一系列的短语, 其实这个过程就是我们所说的中文分词. 但是在有些语言中我们并不能总是把一句...
分类:
其他好文 时间:
2014-10-18 01:54:01
阅读次数:
250
目前我常常使用的分词有结巴分词、NLPIR分词等等最近是在使用结巴分词,稍微做一下推荐,还是蛮好用的。一、结巴分词简介利用结巴分词进行中文分词,基本实现原理有三:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于...
分类:
编程语言 时间:
2014-10-17 23:14:23
阅读次数:
319
搜索引擎Solr4.10.1笔记(二)——IK Analyzer中文分词
SCWS是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点,但是如何通过SCWS实现呢?...
分类:
Web程序 时间:
2014-10-11 00:49:54
阅读次数:
355
酒店评论情感分析系统——用ictclas4j进行中文分词,并去除停用词 ictclas4j是中科院计算所开发的中文分词工具ICTCLAS的Java版本,因其分词准确率较高,而备受青睐。1. 下载ictclas4j 后面的附件中,我有放上ictclas4j的源码包ictclas4j.zip2. ...
分类:
其他好文 时间:
2014-10-03 22:56:25
阅读次数:
532
====================问题描述==================== 最近的安卓开发中需要用到中文分词,就用了中科院的这个分词系统,但是按java应用程序方法引入API中的文件(DATA,ICTCLAS,Configure)等程序总会报错,请问有人在安卓平台上用过吗?麻烦告诉我该...
分类:
移动开发 时间:
2014-09-30 16:38:09
阅读次数:
156
近日需要对大众点评网60万+的景点评论进行语义分析,所以必须使用分词工具,刚刚开始时我是选择使用NLPIR汉语分词系统(又名ICTCLAS2014),NLPIR的教程在[分词]NLPIR/ICTCLAS2014分词系统的C++ API 在Windows下初次使用,但是直观上感觉分词效果不怎么理想.....
分类:
编程语言 时间:
2014-09-20 09:57:17
阅读次数:
342
Elasticsearch安装中文分词插件ik...
分类:
其他好文 时间:
2014-09-19 23:56:56
阅读次数:
490
nltk同时也能处理中文的场景,只要做如下改动: 使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理,使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 to be continue......
分类:
其他好文 时间:
2014-09-17 10:30:22
阅读次数:
275
全文索引服务solr搭建。公司最近要用到。我又是个java小白。做环境的什么的不再行。就此几下操作。
大部分是看官方提供的reference.pdf来做的,也google了不少。公司还有个大哥指点。。。。笨的可以。
环境如下
OS: centos6.5
java环境: jdk1.7.0_51
tomcat版本: apache-tomcat-7.0.55
solr版本: solr...
分类:
其他好文 时间:
2014-09-13 22:49:56
阅读次数:
430