一、NLPIR是什么? NLPIR(汉语分词系统)由中科大张华平博士团队开发,主要功能包括:中文分词,词性标注,命名实体识别,用户词典功能,详情见官网:http://ictclas.nlpir.org/。 二、java环境下的使用: 主要参考了如下资料:http://www.360doc.com/c
分类:
编程语言 时间:
2016-02-28 09:48:22
阅读次数:
305
在Elasticsearch中,内置了很多分词器(analyzers),但默认的分词器对中文的支持都不是太好。所以需要单独安装插件来支持,比较常用的是中科院ICTCLAS的smartcn和IKAnanlyzer效果还是不错的,但是目前IKAnanlyzer还不支持最新的Elasticsearch2.2.0版本,但是smartcn中文分词器..
分类:
其他好文 时间:
2016-02-20 10:33:20
阅读次数:
228
记下来 不然以后又忘记了。 AnalysisEntry:总体调动,调类的顺序;WordFrequenceInDoc:提取中文,分词,去停词,统计词频;在去停词时,要做一个词库,my.dic或者stopword.dicWordCountsInDoc:统计每个文档的单词数目;WordsInCorpusT
分类:
其他好文 时间:
2016-02-20 01:50:52
阅读次数:
195
看到题目就知道我要说什么了,这个话题好像已经被讨论过n次了,看雅虎搜索blog上在06年就有过专题系列文章,地址为:http://ysearchblog.cn/2006/07/post_16.html,文中详细的介绍了有关中文分词的意义,算法,跟搜索引擎的关系等等。个人认为文章质量非常不错。其实我所...
分类:
其他好文 时间:
2016-01-22 02:58:25
阅读次数:
936
https://ruby-china.org/topics/node39http://lutaf.com/category/search-engine
分类:
其他好文 时间:
2016-01-22 02:54:11
阅读次数:
160
下载地址:http://pan.baidu.com/s/1bowbZLt密码:u6tx课程目录:00.说在前面的话01.heritrix环境搭建02.如何进行主题抓取03.heritrix优化04.解析html网页05.中文分词(1)06.中文分词(2)07.中文分词(3)08.中文分词(4)09.中文分词(5)10.中文分词(6)11.中文分词(7)12.中文分词(8)1..
分类:
Web程序 时间:
2016-01-15 17:52:03
阅读次数:
157
IK Analyzer是一款结合了词典和文法分析算法的中文分词组件,基于字符串匹配,支持用户词典扩展定义,支持细粒度和智能切分,比如:张三说的确实在理智能分词的结果是:张三 | 说的 | 确实 | 在理 最细粒度分词结果:张三 | 三 | 说的 | 的确 | 的 | 确实 | 实在...
分类:
其他好文 时间:
2016-01-11 20:31:31
阅读次数:
228
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。1.版本信息 solr版本:4.7.0 需要ik-analyzer版本:IK Analyzer 2012FF_hf12.配置步骤下载压缩解压.....
分类:
其他好文 时间:
2016-01-09 18:31:17
阅读次数:
156
支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)。提供Lucene插件,兼容L...
分类:
编程语言 时间:
2016-01-06 18:03:58
阅读次数:
4341
对于中文搜索引擎来说, 中文分词是整个系统最基础的部分之一, 因为目前基于单字的中文搜索算法并不是太好。 当然, 本文不是要对中文搜索引擎做研究, 而是分享如果用 PHP 做一个站内搜索引擎。 本文是这个系统中的一篇。我使用的分词工具是中科院计算所的开源版本的 ICTCLAS。 另外还有开源的 Ba...
分类:
Web程序 时间:
2016-01-05 22:16:24
阅读次数:
217