垂直搜索引擎研发经验总结什么是垂直搜索引擎? 垂直搜索引擎是针对某一行业的搜索引擎,是搜索引擎的细化和延伸,是对网页库中的某类信息进行一次整合,定向分字段抽取出所须要的数据,再进行二次处理和索引,最后依据用户提交的请求,返回搜索结果。 与普通的网页搜索引擎相比,它们最大的差别是对网页信息进行了结.....
分类:
其他好文 时间:
2014-07-16 23:20:16
阅读次数:
253
solr-1.4.1 环境配置:Solr是一个apache名下非常好用的开源索引、搜索工具,网上的资料虽多但非常杂,笔者花了一天的时间对Solr进行了较为初步的研究,对Solr的基础应用做了一定的总结。文中涉及到的配置方法并不唯一,API的使用方法也未必规范,仅希望可以通过此文让大家对solr更快的...
分类:
其他好文 时间:
2014-07-07 23:10:32
阅读次数:
266
开源搜索引擎的比较(五)5.3整体评估基于以上结果,本文在不同的文档集合上进行了实验, 搜索引擎建索引的时间开销较小的是ht://Dig, Indri, IXE, Lucene, MG4J, Swish-E, Swish++, Terrier, XMLSearch, 和 Zettair。而建索引后的...
分类:
其他好文 时间:
2014-06-30 12:16:19
阅读次数:
415
使用Lucene来搜索内容,搜索结果的显示顺序当然是比较重要的.Lucene中Build-in的几个排序定义在大多数情况下是不适合我们使用的.要适合自己的应用程序的场景,就只能自定义排序功能,本节我们就来看看在Lucene中如何实现自定义排序功能. Lucene中的自定义排序功能和Java集合中的....
分类:
其他好文 时间:
2014-06-30 11:20:53
阅读次数:
174
Lucene.net入门学习系列(1)-分词 Lucene.net入门学习系列(2)-创建索引 Lucene.net入门学习系列(3)-全文检索 这几天在公司实习的时候闲的蛋疼,翻了一下以往的教程和博客,看到了Lucene.net。原本想学着写一个系列的博文,由于本人水平有限,一直找不到适合的...
分类:
Web程序 时间:
2014-06-29 18:31:57
阅读次数:
190
“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一...
分类:
其他好文 时间:
2014-06-27 14:21:53
阅读次数:
225
1、简述private、protected、public、internal修饰符的访问权限。private:私有成员,在类的内部才可以访问。protected:保护成员,该类内部和继承类中可以访问。public:公共成员,完全公开,没有访问限制。internal:当前程序集内可以访问。2、ADO.N...
分类:
Web程序 时间:
2014-06-27 13:22:54
阅读次数:
341
书籍学习——董西成《Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理》HDFS 高容错,高伸缩性Lucene是引擎开发包,提供了一个纯java的高性能全文检索,可方便的嵌入到各种应用中实现全文搜索/索引功能。Nutch是以Lucene为基础实现的搜索引擎应用,Lu...
分类:
其他好文 时间:
2014-06-27 12:15:57
阅读次数:
221
何谓大规模并发,不同层面有不同的理解企业应用(Intranet):千级强并发,万级弱并发(在线用户),十万级用户 大型企业ERP、供应链,大型企业HR、办公OA互联网应用(Internet):百万级强并发,千万级弱并发(在线用户),亿级用户/门户网站(新浪、腾讯)平台级电子商务(阿里巴巴、淘宝网、....
分类:
其他好文 时间:
2014-06-26 14:36:59
阅读次数:
179
ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。 我们建立一个网站或应用程序,并要添加搜索功能,令我们受打击的是:搜索工作是很难的。我们希望...
分类:
其他好文 时间:
2014-06-26 12:33:39
阅读次数:
197