robots.txt的主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。robots.txt不是一种规范,是约定俗成...
分类:
其他好文 时间:
2014-05-26 13:04:58
阅读次数:
228
以下是粘贴来的,觉得写得不错~~借用一下~~引子:什么是W3C标准
作为网站技术开发人员而言,往往是站在自己的开发角度来实施网站布署(读取数据及开发的方便性等等),而不是站在网站访问者与搜索引擎角度。因此大部分的网站在浏览方面不够直观或是方便,特别是现在w3c的规范,更是在大部分的网站开发人员脑里....
分类:
Web程序 时间:
2014-05-26 11:48:34
阅读次数:
293
Insert title here定向数据爬虫和搜索引擎(Directional
Spider)设计(一) ——
元素分析前言页面定向数据抓取目的就是尽可能的抓取在互联网中获取到你感兴趣的数据。因为是定向抓取,同时需要保证对抓取的数据进行数据加工处理,做到对应的数据规范,方便后期检索。
简单的说这个...
分类:
其他好文 时间:
2014-05-26 07:28:45
阅读次数:
225
simhash与重复信息识别在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”……
随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复...
分类:
其他好文 时间:
2014-05-26 06:38:50
阅读次数:
258
1、用以说明生成工具(如MICROSOFT FRONTPAGE 4.0)等;
2、向搜索引擎说明你的网页的关键词; 3、告诉搜索引擎你的站点的主要内容; 4、告诉搜索引擎你的站点的制作的作者; 5、 其中的属性说明如下:
设定为ALL:文件将被检索,且页面上的链接可以被查询; 设定为N...
分类:
其他好文 时间:
2014-05-23 06:32:51
阅读次数:
314
本篇是本人对Solr的使用进行的调研,具体包括
使用DataImportHandler从数据库中近实时同步数据、测试Solr创建索引的效率、以及测试Solr的搜索效率等。
具体的搜索引擎概念、Solr搭建方法、数据库mysql使用方法,假设读者已有了基础
分类:
其他好文 时间:
2014-05-23 03:24:30
阅读次数:
398
MySQL各种索引(因为是浅析大多都不刻意区分搜索引擎)
INDEX(普通索引):最基本的索引,没有任何限制
ALTER TABLE `table_name` ADD INDEX index_name ( `column` )
UNIQUE(唯一索引):与"普通索引"类似,不同的就是:索引列的值必须唯一,但允许有空值。
ALTER TABLE `table_name` ADD UNIQUE (`column`)
注:创建唯一索引的目的不是为了提高访问速度,而只...
分类:
数据库 时间:
2014-05-23 01:24:44
阅读次数:
313
在google诞生以前,传统搜索引擎主要依靠页面内容中的关键词匹配搜索词进行排名。这种排名方式的短处现在看来显而易见,那就是很容易被刻意操纵。黑帽SEO在页面上推挤关键词,或加入与主题无关的热门关键词,都能提高排名,使搜索引擎排名结果质量大为下降。现在的搜索引擎都使用链接分析技术减少垃圾,提高用户体验。下面泡馆史明星就来简单的介绍链接在搜索引擎排名中的应用原理。
在排名中计入链接因素,不仅有...
分类:
其他好文 时间:
2014-05-23 00:19:53
阅读次数:
333
截止目前,已完成如下功能:
1、指定某个地址,下载其页面中包含的所有链接指向的网页
主要有以下类:
1、主类MyCrawler
2、网页下载类PageDownloader
3、网页内容分类类HtmlParserTool
4、接口Filter
完整代码可见归档代码 Jediael_v0.01
或者
https://code.csdn.net/jediael_lu/d...
分类:
其他好文 时间:
2014-05-22 23:19:37
阅读次数:
268
404页面是客户端在浏览网页时,服务器无法正常提供信息,或是服务器无法回应,且不知道原因。404错误信息通常是在目标页面被更改或移除,或客户端输入页面地址错误后显示的页面。
404页面是网站必备的一个页面,它承载着用户体验与SEO优化的重任。404页面通常为用户访问了网站上不存在或已删除的页面,服务器返回的404错误。如果站长没有设置404页面,会出现死链接,蜘蛛爬行这类网址时,不利于搜索引擎收...
分类:
其他好文 时间:
2014-05-21 12:26:48
阅读次数:
299