Solr4.8.0源码分析(8)之Lucene的索引文件(1)题记:最近有幸看到觉先大神的Lucene的博客,感觉自己之前学习的以及工作的太为肤浅,所以决定先跟随觉先大神的博客学习下Lucene的原理。由于觉先大神主要介绍的是Lucene3.X系的,那我就根据源码以及结合觉先大神的来学习下4.X系的...
分类:
其他好文 时间:
2014-09-18 00:42:13
阅读次数:
582
注明:本文是由本人在开发有关基于lucene资源检索系统时的一点总结,当中一部分是自己依据开发过程自己总结的,也有部分是摘自网络,因无法获取当时摘文的地址,所以在此没有写源地址。转载请声明出处Lucene-3.0.0配置一、Lucene开发环境配置step1.Lucene开发包下载step2.Jav...
分类:
其他好文 时间:
2014-09-17 23:16:53
阅读次数:
367
这里忽略java安装和tomcat安装,这里使用的是solr-4.10.01、到apache下载solr,地址:http://mirrors.hust.edu.cn/apache/lucene/solr/2、解压出solr-4.10.03、复制solr-4.10.0\example\webapps中...
分类:
其他好文 时间:
2014-09-17 20:14:12
阅读次数:
231
我的基础版本很混乱,配置文件里是5.0.17但是Admin页面显示的是5.0.10,访问Update Center显示是最新,突然发现官网已经升级到7.0.2了。应该是本地检测版本更新失败了,导致一直显示最新。找到了两个手动升级的文档:大版本升级:http://doc.owncloud.org/se...
分类:
其他好文 时间:
2014-09-16 12:17:10
阅读次数:
211
2.1Lucene如何对搜索内容进行建模2.1.1文档和域2.1.2灵活的架构往文档添加域,跟重建索引二者是什么关系?Lucene和数据库之间的第二个主要的区别是,Lucene要求你在进行索引操作时简单化或反向规格化原始数据。2.1.3反向规格化(Denormalization)2.2理解索引过程2...
分类:
其他好文 时间:
2014-09-16 12:15:10
阅读次数:
164
多核心的概念
多核心说白了就是多索引库。也可以理解为多个"数据库表"
说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索,不使用多核也没问题,这样带来的问题是 indexs文件很多,而且产品的索引文件和会员信息的索引文件混在一起,备份也是个问题。 如果使用了多核,那就很轻松了,产...
分类:
其他好文 时间:
2014-09-16 10:24:30
阅读次数:
264
什么是Solr搜索
我们经常会用到搜索功能,所以也比较熟悉,这里就简单的介绍一下搜索的原理。
当然只是介绍solr的原理,并不是搜索引擎的原理,那会更复杂。
流程图 这是一个非常简单的流程图:
User:即需要搜索的用户。
Raw Data:需要搜索的内容,当然是源数据,可能是文本文件,可能是数据库...
分类:
其他好文 时间:
2014-09-15 15:48:39
阅读次数:
218
多看几遍索引操作将原始数据引入可被高效查找的对照表中,以便能够对这些内容进行快速搜索。这里的对照表的结构是什么样的?是二叉排序树还是红黑树?索引是一个精心设计的数据结构。
分类:
其他好文 时间:
2014-09-15 14:16:48
阅读次数:
122
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等。这几天看了点基础,记录下来。 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先。网络爬虫采取的广度优先,概括的说来如下: 2个数组,一个记录已访问的网页(Al),一个记录未访问的网页(Un...
分类:
编程语言 时间:
2014-09-14 12:51:17
阅读次数:
427
1、简述private、protected、public、internal修饰符的访问权限。private:私有成员,在类的内部才可以访问。protected:保护成员,该类内部和继承类中可以访问。public:公共成员,完全公开,没有访问限制。internal:当前程序集内可以访问。2、ADO.N...
分类:
Web程序 时间:
2014-09-12 23:28:44
阅读次数:
438