主要知识点 1、什么是分词器 分词器就是把一个文档切分成词语,也就是es中所做的normalization(提升recall召回率) recall,召回率:搜索的时候,增加能够搜索到的结果的数量。 经过分词器分词之后,es才能建立倒排索引 2、内置分词器的介绍 es内置种分词器,他们分别是、stan... ...
分类:
其他好文 时间:
2018-02-25 19:18:16
阅读次数:
162
主要知识点: 1、queery string 分词 2、38节中搜索结果解析 3,测试分词器 一、query string分词 query string必须以和index建立时相同的analyzer进行分词 query string对exact value和full text的区别对待 比如我们有一... ...
分类:
其他好文 时间:
2018-02-25 19:07:55
阅读次数:
231
Lucene.net和PanGu分词实现全文检索 Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合,以及对分词器的思考 前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP ...
分类:
Web程序 时间:
2018-02-10 22:37:55
阅读次数:
1088
solr7.2.1环境搭建和配置ik中文分词器 安装环境:Jdk 1.8、 windows 10 安装包准备: solr 各种版本集合下载:http://archive.apache.org/dist/lucene/solr/ tomcat下载(apache-tomcat-8.5.27-window ...
分类:
其他好文 时间:
2018-02-10 20:05:33
阅读次数:
230
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词也是对应Lucene3.6.0版本的。不过好在Lucene.net 已经有 ...
分类:
Web程序 时间:
2018-02-08 15:37:54
阅读次数:
304
1. 下载或者编译 IK 分词器的 jar 包文件,然后放入 ...\apache-tomcat-8.5.16\webapps\solr\WEB-INF\lib\ 这个 lib 文件目录下; IK 分词器下载地址:http://download.csdn.net/download/qq_353185 ...
分类:
其他好文 时间:
2018-02-07 14:39:45
阅读次数:
110
特征选择 RFormula RFormula是一个很方便,也很强大的Feature选择(自由组合的)工具。 输入string 进行独热编码(见下面例子country) 输入数值型转换为double(见下面例子hour) label为string,也用StringIndexer进行编号 卡方独立检验 ...
分类:
编程语言 时间:
2018-01-31 20:24:50
阅读次数:
1193
安装步骤 https://github.com/medcl/elasticsearch-analysis-ik 以插件形式安装: ...
分类:
其他好文 时间:
2018-01-21 13:46:05
阅读次数:
153
http://blog.csdn.net/guixunlong/article/details/8925990 从头开始编写基于隐含马尔可夫模型HMM的中文分词器之一 - 资源篇 首先感谢52nlp的系列博文(http://www.52nlp.cn/),提供了自然语言处理的系列学习文章,让我学习到了 ...
分类:
其他好文 时间:
2018-01-13 18:44:16
阅读次数:
191
solr分词过程: Solr Admin中,选择Analysis,在FieldType中,选择text_en 左边框输入 “冬天到了天气冷了小明不想上学去了”,点击右边的按钮,发现对每个字都进行分词。这不符合中国人的习惯。 solr6.3.0自带中文分词包,在 \solr-6.3.0\contrib ...
分类:
其他好文 时间:
2018-01-10 15:53:36
阅读次数:
945