码迷,mamicode.com
首页 >  
搜索关键字:lucene 检索    ( 9316个结果
robots.txt用法
robots.txt的主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。robots.txt不是一种规范,是约定俗成...
分类:其他好文   时间:2014-05-26 13:04:58    阅读次数:228
定向数据爬虫和搜索引擎(Directional Spider)设计(一) —— 元素分析
Insert title here定向数据爬虫和搜索引擎(Directional Spider)设计(一) —— 元素分析前言页面定向数据抓取目的就是尽可能的抓取在互联网中获取到你感兴趣的数据。因为是定向抓取,同时需要保证对抓取的数据进行数据加工处理,做到对应的数据规范,方便后期检索。 简单的说这个...
分类:其他好文   时间:2014-05-26 07:28:45    阅读次数:225
Oracle中索引的使用 索引性能优化调整
索引是由Oracle维护的可选结构,为数据提供快速的访问。准确地判断在什么地方需要使用索引是困难的,使用索引有利于调节检索速度。 当建立一个索引时,必须指定用于跟踪的表名以及一个或多个表列。一旦建立了索引,在用户表中建立、更改和删除数据库时, Oracle就自动地维护索引。创建索引时,下列准则将帮助...
分类:数据库   时间:2014-05-26 06:47:42    阅读次数:363
【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
详细可参考 (1)书箱:《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》 (2)【搜索引擎基础知识1】搜索引擎的技术架构  (3)【搜索引擎基础知识2】网络爬虫的介绍 1、...
分类:其他好文   时间:2014-05-26 05:45:24    阅读次数:266
【搜索引擎基础知识3】搜索引擎相关开源项目及网站
部分内容转自:http://blog.csdn.net/hguisu/article/details/8024799 一、 开源项目 1.Lucene全文检索系统       http://lucene.apache.org和 http://www.lucene.com.cn/       Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代...
分类:Web程序   时间:2014-05-26 04:36:55    阅读次数:297
Lucene中string docvalues使用utf-16的优化
原来的string docvalues使用utf-8编码,加载时转码花费大量时间,我们把转码实现从new String(bytes, "UTF-8")改用lucene的bytesRef.utf8ToString,减少了大约十秒的时间。 想进一步优化,我们使用UTF-16LE编码,解码非常简单甚至只需拷贝,如果用简单的byte[]到char[]转换,可以在节省7秒时间,而如果用unsafe可以节省...
分类:其他好文   时间:2014-05-25 01:46:44    阅读次数:246
【搜索引擎基础知识1】搜索引擎基本架构
(一)搜索引擎的开发一般可分为以下三大部分 1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi 2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene 3、视图层:也用户的交互界面,如一个网站的首页 其基本架构可参考下图:...
分类:其他好文   时间:2014-05-24 22:20:16    阅读次数:349
基于HSV分块颜色直方图的图像检索算法
引 言                   随着多媒体技术及[nternet技术的迅速发展,各行各业对图像的使用越来越广泛,图像信息资源的管理和检索显得越来越重要。传统的通过手工标记和索引图像(即基于文本的图像检索)的方法已经不能满足人们的需求,随之而来的问题是:随着图像数据的剧增和人们对图像的理解具有不同的侧重点,不同的人从不同的角度对同一幅图像的认识可能存在很大的差异性,因此无法准确反映图像...
分类:其他好文   时间:2014-05-24 18:07:11    阅读次数:353
当前几个主要的Lucene中文分词器的比较
1.基本介绍:paoding:Lucene中文分词“庖丁解牛” PaodingAnalysisimdict :imdict智能词典所采用的智能中文分词程序mmseg4j: 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理...
分类:其他好文   时间:2014-05-24 11:47:16    阅读次数:358
中文分词器性能比较
本篇是本人在Solr的基础上,配置了中文分词器,并对其进行的性能测试总结,具体包括使用mmseg4j、IKAnalyzer、Ansj,分别从创建索引效果、创建索引性能、数据搜索效率等方面进行衡量。具体的Solr使用方法假设读者已有了基础,关于Solr的性能指标见前期的Solr博文。
分类:其他好文   时间:2014-05-24 09:33:03    阅读次数:371
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!