正向索引 正排表是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。 这种组织方法在建立索引的时候结构比较简单,建立比较方便且易于维护;因为索引是基于文档建立的,若是有新的文档加入,直接为该文档建立一个新的索引块,挂接在原来索引文 ...
分类:
其他好文 时间:
2018-12-31 22:00:23
阅读次数:
273
实操重写IK分词器源码,基于mysql热更新词库参考网址:https://blog.csdn.net/wuzhiwei549/article/details/80451302 问题一:按照这篇文章的介绍,遇到一个问题:No suitable driver found for jdbc:mysql,搞 ...
分类:
数据库 时间:
2018-12-12 20:32:02
阅读次数:
228
分词器概念介绍: Analyzer类(分词器)就是把一段文本中的词按某些规则取出,提供和以后查询时使用的工具类,注意在创建索引时会用到分词器,在使用字符串搜索时也会用到分词器,这两个地方要使用同一个分词器,否则可能会搜索不出结果 分词器工作流程: 1, 切分关键词 2, 去除停用词 3, 对于英文单 ...
分类:
Web程序 时间:
2018-12-10 18:13:21
阅读次数:
243
一、Es插件配置及下载 1.IK分词器的下载安装 关于IK分词器的介绍不再多少,一言以蔽之,IK分词是目前使用非常广泛分词效果比较好的中文分词器。做ES开发的,中文分词十有八九使用的都是IK分词器。 下载地址:https://github.com/medcl/elasticsearch-analys ...
分类:
其他好文 时间:
2018-11-25 13:26:39
阅读次数:
294
我们使用的百度搜索和电商网站的搜索功能一般都是基于Lucene实现的,Solr就是对Lucene进行的封装,就像Servlet和Struts2,SpringMvc一样 说的专业点就是全文检索 实现全文检索的流程的大致操作如下 这张图表现的很清晰,网上扒下来的 索引库中应该包含两部分,一部分是索引,一 ...
分类:
Web程序 时间:
2018-11-23 18:31:12
阅读次数:
231
1.ELK简介ELK是三个开源软件的缩写,分别表示:Elasticsearch,Logstash,Kibana,它们都是开源软件。新增了一个FileBeat,它是一个轻量级的日志收集处理工具(Agent),Filebeat占用资源少,适合于在各个服务器上搜集日志后传输给Logstash,官方也推荐此工具。Elasticsearch是个开源分布式搜索引擎,提供搜集、分析、存储数据三大功能。它的特点有
分类:
其他好文 时间:
2018-11-22 00:24:48
阅读次数:
189
term、terms查询 term query会去倒排索引中寻找确切的term,它并不知道分词器的存在,这种查询适合keyword、numeric、date等明确值的 term:查询某个字段里含有某个关键词的文档 terms:查询某个字段里含有多个关键词的文档 match查询 match query ...
分类:
其他好文 时间:
2018-11-14 17:18:26
阅读次数:
572
核心示例代码: Lucene深入(Luke&&中文分词器&&查询语句见相关文档) ...
分类:
Web程序 时间:
2018-10-28 16:12:23
阅读次数:
159
1. 创建索引,修改索引,删除索引 2. 默认分词器standard standard tokenizer:以单词边界进行切分standard token filter:什么都不做lowercase token filter:将所有字母转换为小写stop token filer(默认被禁用):移除停 ...
分类:
其他好文 时间:
2018-10-23 16:26:30
阅读次数:
190
1.问题 现在项目中用的是ES5.6.3的版本,在解决Field注解没有加载mapping的问题后又发现IK分词好像不理想。 后来查看5.5.0 IKAnalyzer.cfg.xml的配置发现 这里Ik是默认帮我们配置了分词的文件,这些文件是IK已经分过的词。 然后再查看5.6.3IK的配置文件 5 ...
分类:
其他好文 时间:
2018-10-22 20:28:34
阅读次数:
239