码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
Elasticsearch5.X IN Windows 10 系列文章(5)
ElasticSearch版本: 5.5.1 (最新稳定版为5.5.2),由于用到IK中文分词插件,最新版本没有5.5.2 ,所以使用5.5.1 日期:2017-08-31 第五章:Kibana 安装 Search Guard 官方文档 1、下载与kibana 版本对应的 Search Guard ...
分类:Windows程序   时间:2017-08-31 19:13:38    阅读次数:256
Elasticsearch5.X IN Windows 10 系列文章(4)
ElasticSearch版本: 5.5.1 (最新稳定版为5.5.2),由于用到IK中文分词插件,最新版本没有5.5.2 ,所以使用5.5.1 日期:2017-08-30 第四章:安装 Search Guard 由于x-pack 的 security 部分是收费的,考虑使用其他插件来替代,倾向于两 ...
分类:Windows程序   时间:2017-08-31 19:04:55    阅读次数:433
Solr6.6.0添加IK中文分词器
IK分词器就是一款中国人开发的,扩展性很好的中文分词器,它支持扩展词库,可以自己定制分词项,这对中文分词无疑是友好的。 jar包下载链接:http://pan.baidu.com/s/1o85I15o 密码:p82g下载好之后,将IK对应的jar复制到项目的D:\tomcat\webapps\sol ...
分类:其他好文   时间:2017-08-23 20:03:31    阅读次数:431
R语言学习-词频分析
概念 1、语料库-Corpus 语料库是我们要分析的所有文档的集合,就是需要为哪些文档来做词频 2、中文分词-Chinese Word Segmentation 指的是将一个汉字序列切分成一个一个单独的词语。 3、停用词-Stop Words 数据处理的时候,自动过滤掉某些字或词,包括泛滥的词如We ...
分类:编程语言   时间:2017-08-15 23:32:31    阅读次数:975
Sphinx + Coreseek 实现中文分词搜索
Sphinx + Coreseek 实现中文分词搜索 Sphinx Coreseek 实现中文分词搜索 全文检索 1 全文检索 vs 数据库 2 中文检索 vs 汉化检索 3 自建全文搜索与使用Google等第三方站点提供的站内全文搜索的差别 Sphinx Coreseek介绍 Coreseek安装 ...
分类:其他好文   时间:2017-08-14 23:27:39    阅读次数:467
如何开发自己的搜索帝国之安装ik分词器
Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词,我是中国人 不能简单的分成一个个字,我们更希望 “中国人”,“中国”,“我”这样的分词,这样我们就需要安装中文分词插件,ik就是实现这个功能的。 elasticsearch-analysis-ik 是一款 ...
分类:其他好文   时间:2017-08-14 09:58:00    阅读次数:210
elasticsearch中文分词+全文搜索
安装ik中文分词器 我在百度上搜索了下,大多介绍的都是用maven打包下载下来的源码,这种方法也行,但是不够方便,为什么这么说? 首先需要安装maven吧?其次需要下载源码吧?最后需要打包吧? 我直接下载打包好的多方便? 下载地址:https://github.com/medcl/elasticse ...
分类:其他好文   时间:2017-08-08 15:18:17    阅读次数:240
lucene中文分词——(四)
1.分析器的执行过程: 第一个 TokenFilter将大写字母变为小写,第二次分词去掉空格并换行,第三次去掉不要的 and或者标点符号 2.中文分词器介绍: (1)lucene自带的 (2)第三方的 3.查看标准分词器对中文的分词效果: 最终决定使用的是IKAnalyzer()分词器,支持中文扩展 ...
分类:Web程序   时间:2017-08-05 19:45:09    阅读次数:386
SCWS 添加自定义词典
最近使用了SCWS进行中文分词。有个问题就是添加自定义词典,总结一下吧。词典格式的话#WORDTFIDFATTR学五14.015.92n去这个网址可查:http://www.xunsearch.com/scws/demo/get_tfidf.php自己写的,把要查的词放到txt中,然后批量查询~require_once__DIR__.‘/func/my_curl_functio..
分类:其他好文   时间:2017-07-31 22:07:48    阅读次数:156
Configure the Stanford segmenter for NLTK
>>> from nltk.tokenize.stanford_segmenter import StanfordSegmenter >>> segmenter = StanfordSegmenter(path_to_jar='stanford-segmenter-3.8.0.jar', path_... ...
分类:其他好文   时间:2017-07-30 13:58:09    阅读次数:315
704条   上一页 1 ... 30 31 32 33 34 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!