对文本搜索引擎的倒排索引(数据结构和算法)、评分系统、分词系统都清楚掌握之后,本人对数值索引和搜索一直有很大的兴趣,最近对Lucene对数值索引和范围搜索做了些学习,并将主要内容整理如下: 1. Lucene不直接支持数值(以及范围)的搜索,数值必须转换为字符(串); 2. Lucene搜索数值的初 ...
分类:
Web程序 时间:
2018-07-24 17:59:40
阅读次数:
206
Lucene索引过程分为3个主要操作步骤:将原始文档转换成文本、分析文本、将分析好的文本保存至索引中 一、提取文本和创建文档 从 pdf、word等非纯文本格式文件中,提取文本格式信息。建立起对应的,包含各个域的文档后,就可以对这些文本信息进行分析。 使用 Tika框架实现 二、分析文档 调用 In ...
分类:
Web程序 时间:
2018-07-23 18:41:33
阅读次数:
227
Lucene/Solr 第二天 1. 课程计划 Lucene的Field Lucene的索引库维护 lucene的查询 a) Query子对象 b) QueryParser Lucene相关度排序0 solr介绍 solr安装配置 Solrj的使用 2. Field域 2.1. Field属性 Fi ...
分类:
Web程序 时间:
2018-07-20 22:32:59
阅读次数:
229
1、shard&replica机制再次梳理2、图解单node环境下创建index是什么样子的 1、shard&replica机制再次梳理 (1)index包含多个shard(2)每个shard都是一个最小工作单元,承载部分数据,lucene实例,完整的建立索引和处理请求的能力(3)增减节点时,sha ...
分类:
其他好文 时间:
2018-07-20 00:22:03
阅读次数:
154
一) 回顾索引 定义:索引是对数据库表中一列或多列的值进行排序的一种结构 目的:加快对数据库表中记录的查询 特点:以空间换取时间,提高查询速度快 参见<<索引提高查询速度原理.JPG>> 二) 体验百度搜索与原理图 参见<<在baidu中搜索Lucene关健字的结果.JPG>> 参见<<百度索搜宏观 ...
分类:
Web程序 时间:
2018-07-19 22:29:16
阅读次数:
294
Lucene lucene 是全文检索的一种实现,是一种工具包 用于中小型应用实现对文本的全文检索, solr 全文搜索服务器 大型应用 lucene api 增删改 IndexWriter(索引写入器) 查询 IndexSearcher(索引搜索器) 索引目录(Directory): 存储索引文件 ...
分类:
Web程序 时间:
2018-07-19 13:31:06
阅读次数:
201
ElasticSearch,简称ES, 是一个基于Lucene的分布式全文搜索服务器,和SQL Server的全文索引(Fulltext Index)有点类似,都是基于分词和分段的全文搜索引擎,具有分词,同义词,词干查询的功能,但是ES天生具有分布式和实时的属性。 一,安装Java SE环境 安装J ...
什么是solr? Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化。 solr整合Tomcat步骤 第一步:安装tomcat。D:\temp\a ...
分类:
其他好文 时间:
2018-07-17 20:15:21
阅读次数:
172
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可 ...
分类:
Web程序 时间:
2018-07-17 16:45:01
阅读次数:
281
背景 前端高亮需要分词服务,nlp团队提供的分词服务需要跨域调用,而且后台数据索引使用的IK分词。综合评价,前端分词也需要基于IK分词器。 IKAnalyzer服务已经停止更新,且对Lucene支持仅测试到4.x.x版本(6.x.x会出现异常),因此使用IK分词器时需要解决一些异常。 依赖 项目以及... ...
分类:
其他好文 时间:
2018-07-17 10:33:27
阅读次数:
585