软件包准备NLPIR/ICTCLAS2014分词系统下载包Dev-C++操作系统Windows解压分词系统下载包后看到在这里Windows下所需要的是Data、include中的NLPIR.h、lib中win32的NLPIR.libNLPIR.dll,文件使用方法待会儿再说。在 Dev C++中新建...
分类:
编程语言 时间:
2014-09-04 18:25:59
阅读次数:
289
使用NLPIR-ICTCLAS2014分词系统...
分类:
其他好文 时间:
2014-08-04 14:18:57
阅读次数:
258
最近想使用ICTCLAS分词系统,需要在myeclipse中加载dll(本地库),查阅资料使用jni,ICTCLAS官方也提供了很全面的加载方法,虽然在run as java application下运行没有问题,但是在tomcat下报UnsatisfiedLinkError的错误,错误来自Syst...
分类:
其他好文 时间:
2014-07-14 08:46:13
阅读次数:
254
背景:分析用户在世界杯期间讨论最多的话题。
思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云,效果如下
后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程,以后有机会再学习下。...
分类:
其他好文 时间:
2014-07-13 18:53:55
阅读次数:
367
中文分词是做好中文内容检索、文本分析的基础,主要应用于搜索引擎与数据挖掘领域。中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因而中文分词的难点在于如何准确而又快速地进行分词以下介绍4款开源中文分词系统。1、ICTCLAS – 全球最受欢迎的汉语分词系统 中文词法分析是中文信息处理...
分类:
其他好文 时间:
2014-06-26 22:35:29
阅读次数:
298
分词系统建立完毕,这是基础也是核心,后面我们建立索引要用到分词系统。
下面依次讲解索引的建立,索引的查找。
分词系统建立完毕,这是基础也是核心,后面我们建立索引要用到分词系统。下面依次讲解索引的建立,索引的查找。
索引的建立采用的是倒排序,原理就是遍历所有的文本,对其进行分词,然后把分的词汇建立索引表。形式类似如下:
词汇 出现词汇的篇章1,篇章2,...
分类:
Web程序 时间:
2014-05-25 20:58:39
阅读次数:
413