中文分词系统工程报告一、研究背景 随着互联网的快速发展,信息也呈了爆炸式的增长趋势。在海量的信息中,我们如何快速抽取出有效信息成为了必须要解决的问题。由于信息处理的重复性,而计算机又善于处理机械的、重复的、有规律可循的工作,因此自然就想到了利用计算机来帮助人们进行处理。在用计算机进行自然语言处理时,...
分类:
其他好文 时间:
2015-10-26 23:50:30
阅读次数:
755
NLPIR(ICTCLAS),参见java实现NLPIR(ICTCLAS)分词:http://www.bubuko.com/infodetail-665665.html,词性标注使用北大词性标注集。在Linux系统中的使用方法:http://jingyan.baidu.com/article/915...
分类:
其他好文 时间:
2015-10-24 00:09:55
阅读次数:
744
搜索可以说是开发中很常见的场景了,同样这次也一样。。。 之前的组合多数是选择 Mysql + Sphinx ,这次因为工作原因不再使用这种组合,虽然是老牌组合,但是确实限制诸多,而且每次配环境也是个问题,挺烦的。。...
分类:
系统相关 时间:
2015-10-23 18:59:03
阅读次数:
331
SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。1.下载scws官方提供的类(这里使用的是pscws第四版的)http://www.xunsearch.com/scws/down/pscws4-20081221.tar.bz2下载...
分类:
Web程序 时间:
2015-10-23 18:14:13
阅读次数:
261
原文:http://blog.chinaunix.net/uid-20236190-id-1643667.html只是copy过来,防止原文被删掉,原文的排版格式更清晰,建议大家看原文。CRF简介Conditional Random Field:条件随机场,一种机器学习技术(模型)CRF由John ...
分类:
其他好文 时间:
2015-10-23 18:01:44
阅读次数:
194
秉着能偷懒就偷懒的精神,关于AC自动机本来不想看的,但是HanLp的源码中用户自定义词典的识别是用的AC自动机实现的。唉~没办法,还是看看吧AC自动机理论Aho Corasick自动机,简称AC自动机,要学会AC自动机,我们必须知道什么是Trie,也就是字典树。Trie树,又称单词查找树或键树,是一...
分类:
编程语言 时间:
2015-10-21 19:00:11
阅读次数:
1107
Lucene分词器及高亮分词器在lucene中我们按照分词方式把文档进行索引,不同的分词器索引的效果不太一样,之前的例子使用的都是标准分词器,对于英文的效果很好,但是中文分词效果就不怎么样,他会按照汉字的字直接分词,没有词语的概念。使用分词的地方只需要把Analyzer实例化成我们第三方的分词器即可...
分类:
Web程序 时间:
2015-10-19 01:54:10
阅读次数:
215
首先在安装Rwordseg之前必须先安装rJava:install.packages("rJava")试开URL’http://cran.rstudio.com/bin/macosx/mavericks/contrib/3.1/rJava_0.9-7.tgz‘Contenttype‘application/x-gzip‘length600926bytes(586Kb)打开了URL================================================..
分类:
编程语言 时间:
2015-09-30 01:10:45
阅读次数:
1118
Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词。例如: curl?-XPOST??"http://localhost:9200/userinfo/_analyze?analyzer=standard&pretty=true&text=我是中国人" 我们...
分类:
其他好文 时间:
2015-09-16 12:54:45
阅读次数:
227
简介平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字)。.NET平台上常见的分词组件是盘古分词,但是已经好久没有更...
分类:
Web程序 时间:
2015-09-11 00:13:39
阅读次数:
546