一:理论知识 1.非结构化数据查询方法 1)顺序扫描法 太慢,效率不高。 2)全文检索法 对需要查询的文档创建索引,再对其进行搜索。其实说白了就是为了使其结构化。 2.索引创建和搜索流程图 1)流程图 2)索引库 索引库是由两部分组成的,一部分是索引,另一部分是文档对象(不是原始文档)。 3.流程图 ...
分类:
Web程序 时间:
2018-11-03 17:29:28
阅读次数:
416
该文使用 Centos6.5 64 位 solr4.10.3 IK-Analyzer中文分析器 一、solr域 在solr中域的概念与lucene中域的概念相同,数据库的一条记录或者一个文件的信息就是一个document,数据库记录的字段或者文件的某个属性就是一个Field域,solr中对索引的检索 ...
分类:
其他好文 时间:
2018-10-31 17:06:40
阅读次数:
316
核心示例代码: Lucene深入(Luke&&中文分词器&&查询语句见相关文档) ...
分类:
Web程序 时间:
2018-10-28 16:12:23
阅读次数:
159
首先对不必要的字段不做分词也就是不做索引,禁止内存交换 1.shard 一个Shard就是一个Lucene实例,是一个完整的搜索引擎。 分片数过多会导致检索时打开比较多的文件,多台服务器之间通讯成本加大。 而分片数过少会导至单个分片索引过大,所以检索速度也会慢。 建议单个分片最多存储10G-20G左 ...
分类:
其他好文 时间:
2018-10-26 10:42:27
阅读次数:
215
本人使用Windows系统,为了使用Nutch搜索引擎的Web爬虫爬取网站页面,需要给Windows系统安装Linux开发环境以运行Nutch。而安装Linux开发环境需要安装Cywin。查了很多安装教程,大多是使用163的镜像网站下载的,但是实际操作过程中,发现连接不到该镜像网站,不论是http: ...
全文检索(Lucene&Solr) 1)什么是全文检索?为什么需要全文检索? 结构化数据(mysql等)方便查询,而非结构化数据(如多篇文章)是难以查询到自己需要的,所以要使用全文检索。 全文检索:将非结构化数据的内容提取一部分,然后重新组织,使其有一定结构,然后就能以此快速的查找需要的信息,提取整 ...
分类:
Web程序 时间:
2018-10-18 10:54:34
阅读次数:
200
(1)创建project (2)导入Lucene的核心包 (3)编写代码建立索引 /lucene01/src/cn/hk/lucene/TestIndex.java: /lucene01/src/cn/hk/lucene/TestSearch.java: ...
分类:
Web程序 时间:
2018-10-13 17:20:22
阅读次数:
181
lucene全文检索 2、Lucene实现全文检索的流程a) 创建索引b) 查询索引3、配置开发环境4、创建索引库5、查询索引库6、分析器的分析过程a) 测试分析器的分词效果b) 第三方中文分析器7、索引库的维护a) 添加文档b) 删除文档c) 修改文档8、Lucene的高级查询Lucene的查询a ...
分类:
Web程序 时间:
2018-10-10 14:09:49
阅读次数:
182
Centos7:Solr安装,配置与使用 配置jdk环境,安装tomcat 解压solr bin:是脚本的启动目录 contrib:第三方包存放的目录 dist:编译打包后存放目录,即构建后的输出产物存放的目录 docs:solr文档的存放目录 example:示范例子的存放目录 licenses: ...
分类:
其他好文 时间:
2018-10-07 15:38:00
阅读次数:
338