无论是solr还是luncene,都对中文分词不太好,所以我们一般索引中文的话需要使用ik中文分词器。 三台机器(192.168.1.236,192.168.1.237,192.168.1.238)已经安装好了solrcloud 我安装的是solr5.5使用的是ik是IKAnalyzer2012FF ...
分类:
其他好文 时间:
2017-10-26 13:28:21
阅读次数:
262
solr7,刚出来,如何让它成为一个web工程在tomcat上部署它,是一个重要的问题,以下步骤分别解决这些问题,同时使用IKAnalyzer中文分词器分词器。 一,修改solr7的源代码,让core所在的目录默认位于{webRoot上下文}/solr下面,从而在tomcat上部署该应用时不用再去修 ...
分类:
其他好文 时间:
2017-10-24 14:03:02
阅读次数:
158
首先声明:我对Lucene.Net并不熟悉,但搜索确实是分词的一个重要应用,所以这里还是尝试将两者集成起来,也许对你有一参考。 看到了两个中文分词与Lucene.Net的集成项目:Lucene.Net.Analysis.PanGu和Lucene.Net.Analysis.MMSeg,参考其中的代码实 ...
分类:
Web程序 时间:
2017-10-20 20:11:57
阅读次数:
283
英文分词: #中文分词 #社交网络语言的tokenize【正则表达式】 ...
分类:
其他好文 时间:
2017-10-18 01:59:34
阅读次数:
252
关于HMM模型的介绍,网上的资料已经烂大街,但是大部分都是在背书背公式,本文在此针对HMM模型在中文分词中的应用,讲讲实现原理。 尽可能的撇开公式,撇开推导。结合实际开源代码作为例子,争取做到雅俗共赏,童叟无欺。 没有公式,就没有伤害。 模型介绍 第一次听说HMM模型是从李开复的博文论文中听说的: ...
分类:
其他好文 时间:
2017-10-16 16:54:45
阅读次数:
174
1、基本介绍 随着分词在信息检索领域应用的越来越广泛,分词这门技术对大家并不陌生。对于英文分词处理相对简单,经过拆分单词、排斥停止词、提取词干的过程基本就能实现英文分词,单对于中文分词而言,由于语义的复杂导致分词并没英文分词那么简单,一般都是通过相关的分词工具来实现,目前比较常用的有庖丁分词以及IK ...
分类:
Web程序 时间:
2017-10-12 19:12:46
阅读次数:
220
问题 使用 ElasticSearch 做搜索 时,比如用户输入 --> 柠檬,搜出来的结果 --> 柠檬汽水,柠檬味牙膏等在前面,真正想要的水果那个 柠檬 在后面。已经在中文分词中加了 柠檬,还是不管用,正常来说 tf、idf 都一样,影响排序的只有 field norms。按道理 “柠檬” 的 ...
分类:
其他好文 时间:
2017-10-09 19:47:26
阅读次数:
279
1. 什么是中文分词器 对于英文,是安装空格、标点符号进行分词 对于中文,应该安装具体的词来分,中文分词就是将词,切分成一个个有意义的词。 比如:“我的中国人”,分词:我、的、中国、中国人、国人。 2. Lucene自带的中文分词器 StandardAnalyzer: 单字分词:就是按照中文一个字一 ...
分类:
Web程序 时间:
2017-10-09 02:02:17
阅读次数:
336
中文分词 解读: 讲的是三藏与大圣美猴王的故事 ...
分类:
其他好文 时间:
2017-09-30 00:31:42
阅读次数:
131