码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
solrcloud配置中文分词器ik
无论是solr还是luncene,都对中文分词不太好,所以我们一般索引中文的话需要使用ik中文分词器。 三台机器(192.168.1.236,192.168.1.237,192.168.1.238)已经安装好了solrcloud 我安装的是solr5.5使用的是ik是IKAnalyzer2012FF ...
分类:其他好文   时间:2017-10-26 13:28:21    阅读次数:262
solr7.0.0+IKAnalyzer中文分词器V2012+tomcat9
solr7,刚出来,如何让它成为一个web工程在tomcat上部署它,是一个重要的问题,以下步骤分别解决这些问题,同时使用IKAnalyzer中文分词器分词器。 一,修改solr7的源代码,让core所在的目录默认位于{webRoot上下文}/solr下面,从而在tomcat上部署该应用时不用再去修 ...
分类:其他好文   时间:2017-10-24 14:03:02    阅读次数:158
【转】jieba.NET与Lucene.Net的集成
首先声明:我对Lucene.Net并不熟悉,但搜索确实是分词的一个重要应用,所以这里还是尝试将两者集成起来,也许对你有一参考。 看到了两个中文分词与Lucene.Net的集成项目:Lucene.Net.Analysis.PanGu和Lucene.Net.Analysis.MMSeg,参考其中的代码实 ...
分类:Web程序   时间:2017-10-20 20:11:57    阅读次数:283
NLP分词
英文分词: #中文分词 #社交网络语言的tokenize【正则表达式】 ...
分类:其他好文   时间:2017-10-18 01:59:34    阅读次数:252
【转】中文分词之HMM模型详解
关于HMM模型的介绍,网上的资料已经烂大街,但是大部分都是在背书背公式,本文在此针对HMM模型在中文分词中的应用,讲讲实现原理。 尽可能的撇开公式,撇开推导。结合实际开源代码作为例子,争取做到雅俗共赏,童叟无欺。 没有公式,就没有伤害。 模型介绍 第一次听说HMM模型是从李开复的博文论文中听说的: ...
分类:其他好文   时间:2017-10-16 16:54:45    阅读次数:174
IKAnalyzer结合Lucene实现中文分词
1、基本介绍 随着分词在信息检索领域应用的越来越广泛,分词这门技术对大家并不陌生。对于英文分词处理相对简单,经过拆分单词、排斥停止词、提取词干的过程基本就能实现英文分词,单对于中文分词而言,由于语义的复杂导致分词并没英文分词那么简单,一般都是通过相关的分词工具来实现,目前比较常用的有庖丁分词以及IK ...
分类:Web程序   时间:2017-10-12 19:12:46    阅读次数:220
ElasticStack系列之十二 & 搜索结果研究
问题 使用 ElasticSearch 做搜索 时,比如用户输入 --> 柠檬,搜出来的结果 --> 柠檬汽水,柠檬味牙膏等在前面,真正想要的水果那个 柠檬 在后面。已经在中文分词中加了 柠檬,还是不管用,正常来说 tf、idf 都一样,影响排序的只有 field norms。按道理 “柠檬” 的 ...
分类:其他好文   时间:2017-10-09 19:47:26    阅读次数:279
(五)Lucene——中文分词器
1. 什么是中文分词器 对于英文,是安装空格、标点符号进行分词 对于中文,应该安装具体的词来分,中文分词就是将词,切分成一个个有意义的词。 比如:“我的中国人”,分词:我、的、中国、中国人、国人。 2. Lucene自带的中文分词器 StandardAnalyzer: 单字分词:就是按照中文一个字一 ...
分类:Web程序   时间:2017-10-09 02:02:17    阅读次数:336
中文词频统计
中文分词 解读: 讲的是三藏与大圣美猴王的故事 ...
分类:其他好文   时间:2017-09-30 00:31:42    阅读次数:131
中文词频统计
中文分词 ...
分类:其他好文   时间:2017-09-29 23:13:19    阅读次数:345
704条   上一页 1 ... 24 25 26 27 28 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!