一、认识URL ??? 类 URL 代表一个统一资源定位符,它是指向互联网“资源”的指针。资源可以是简单的文件或目录,也可以是更为复杂的对象的引用,例如对数据库或搜索引擎的查询。 ??? 简单的可以把URL理解为...
分类:
编程语言 时间:
2014-09-30 20:11:00
阅读次数:
158
网络爬虫程序的优劣,很大程度上反映了一个搜索引擎的好差。不信,你可以随便拿一个网站去查询一下各家搜索对它的网页收录情况,爬虫强大程度跟搜索引擎好坏基本成正比。 1.世界上最简单的爬虫——三行情诗 我们先...
分类:
Web程序 时间:
2014-09-30 19:37:00
阅读次数:
306
对于一个网站站长而言,能让网站被用户搜索到才是重中之重,而为了能被搜索到,我们的网站一定友好地被搜索引擎抓取。那么很多人就会问:如何让网站友好地契合搜索引擎?这其实并不难,我们只要考虑搜索引擎优化的标准和优质内容就好。
第一、做好网站导航对搜索引擎的友好度。网站导航是搜索引擎抓取网站内容的重要桥梁,所以网站导航一般不能做成图片或者Flash,因为图片和Flash对搜索引擎的抓取并不友好。不过...
分类:
Web程序 时间:
2014-09-30 17:11:30
阅读次数:
175
一个网站只有爬虫抓取了,才能被收录、有快照、有排名。所以搜索引擎爬虫对网站的抓取情况直接决定了一个网站seo的成败。今天笔者就从网站内部本身来分析一下那些因素将影响到搜索引擎爬虫的爬取: 1、网站速度影响爬虫访问 机房—DNS服务器—CDN—出口带宽--硬件—操作系统—服务器软件—程序 机房的...
分类:
Web程序 时间:
2014-09-30 17:03:59
阅读次数:
210
文章转自:http://blog.csdn.net/hguisu/article/details/7949844通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件...
分类:
其他好文 时间:
2014-09-30 14:57:29
阅读次数:
302
元素 元素用来描述网页中最上层的标题。由于一些浏览器会默认地把 元素显示为很大的字体,因此会有一些 web 开发者使用 元素代替 元素来显示最上层的标题。这样做不会对读者产生影响,但会使那些试图“理解网页结构”的搜索引擎和其他软件感到迷惑。请确保把 用于最顶层的标题, 和 用于较低的层级。谈到SEO优化的话 H1标签 H1标签是指网页html中对文本标题所进行的着重强调的一种标签,制作...
分类:
Web程序 时间:
2014-09-30 14:42:39
阅读次数:
2249
文章转自:http://blog.csdn.net/hguisu/article/details/7978451我们从用户的角度来看,用户不关心什么索引结构是倒排还是签名文件,也不需要知道相关排序算法。用户提交了查询,就需要获取满意的搜索结果。这个搜索结果就是搜索引擎是否提供有效的服务。1.查询流程...
分类:
其他好文 时间:
2014-09-30 14:26:59
阅读次数:
151
文章转自:http://blog.csdn.net/hguisu/article/details/7962350搜索引擎的索引1.单词——文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系...
分类:
其他好文 时间:
2014-09-30 13:23:19
阅读次数:
203
文章转自:http://blog.csdn.net/hguisu/article/details/79559851. 搜索引擎的分类搜索引擎按其工作方式主要可分为三种:分别是全文搜索引擎(Full Text Search Engine)目录索引类搜索引擎(Search Index/Directory...
分类:
其他好文 时间:
2014-09-30 13:06:09
阅读次数:
242
文章转自:http://blog.csdn.net/hguisu/article/details/79697571.概述 在关系数据库系统里,索引是检索数据最有效率的方式,。但对于搜索引起,他它并不能满足其特殊要求:1)海量数据:搜索引擎面对的是海量数据,像Google,百度这样大型的商业搜索引擎索...
分类:
其他好文 时间:
2014-09-30 13:05:49
阅读次数:
254