1、用以说明生成工具(如MICROSOFT FRONTPAGE 4.0)等;
2、向搜索引擎说明你的网页的关键词; 3、告诉搜索引擎你的站点的主要内容; 4、告诉搜索引擎你的站点的制作的作者; 5、 其中的属性说明如下:
设定为ALL:文件将被检索,且页面上的链接可以被查询; 设定为N...
分类:
其他好文 时间:
2014-05-23 06:32:51
阅读次数:
314
本篇是本人对Solr的使用进行的调研,具体包括
使用DataImportHandler从数据库中近实时同步数据、测试Solr创建索引的效率、以及测试Solr的搜索效率等。
具体的搜索引擎概念、Solr搭建方法、数据库mysql使用方法,假设读者已有了基础
分类:
其他好文 时间:
2014-05-23 03:24:30
阅读次数:
398
MySQL各种索引(因为是浅析大多都不刻意区分搜索引擎)
INDEX(普通索引):最基本的索引,没有任何限制
ALTER TABLE `table_name` ADD INDEX index_name ( `column` )
UNIQUE(唯一索引):与"普通索引"类似,不同的就是:索引列的值必须唯一,但允许有空值。
ALTER TABLE `table_name` ADD UNIQUE (`column`)
注:创建唯一索引的目的不是为了提高访问速度,而只...
分类:
数据库 时间:
2014-05-23 01:24:44
阅读次数:
313
截止目前,已完成如下功能:
1、指定某个地址,下载其页面中包含的所有链接指向的网页
主要有以下类:
1、主类MyCrawler
2、网页下载类PageDownloader
3、网页内容分类类HtmlParserTool
4、接口Filter
完整代码可见归档代码 Jediael_v0.01
或者
https://code.csdn.net/jediael_lu/d...
分类:
其他好文 时间:
2014-05-22 23:19:37
阅读次数:
268
简介
nutch是一个用java实现的网络爬虫,但却不仅仅是一个爬虫。它还囊括了网页分析,索引,搜索等功能,所白了,可以当做一个搜索引擎来用。nutch的意义在于,为普通开发人员提供了一扇研究搜索引擎的窗户,让搜索引擎不再神秘。而且,由于nutch的不断发展,对性能以及并行批处理的要求不断提供,h....
分类:
其他好文 时间:
2014-05-22 01:21:40
阅读次数:
258
一个网站想要成功优化,在搜索引擎里排名靠前,就必须具备以下这10项内容.
1、对于时效性内容的及时更新
时效效的内容,要的就是要快人一步,先人一招.时效性内容是指在特定的某段时间内具有最高价值的内容,时效性内容越来越被营销者们所重视,并且逐
渐加以利用使其效益最大化,营销者利用时效性创造...
分类:
Web程序 时间:
2014-05-22 00:07:10
阅读次数:
381
建置好了网站之后,为了能提升流量或是增加曝光度,Mix通常会到Google谷歌,用手动登录的方式,登录网站,不久之后,搜索引擎就会派遣蜘蛛机器人,来检索你的网站,等一段时间之后,就会出现在搜索引擎内,被网友搜寻到。阅读全文>>
分类:
Web程序 时间:
2014-05-21 18:22:16
阅读次数:
286
你怎么做优化的?这句话问到许多人的时分他们都是一个回答。“文章,外链”,其实,搜索引擎优化真的并不是如此。下面天津搜索引擎优化小编举个简略的比方,就好比咱们买了个新房子,文章即是你房子中的家私,外链即是你需求来观赏的兄弟。你的家私多,而且异乎寻常,也即是说你的文章多,自创,当然可以很招引你需求到来的兄弟们的眼球。可是,如果你的房子地没扫,各种规划不合理,很有可能会给别人形成肮脏的印象。所以,做搜索...
分类:
Web程序 时间:
2014-05-21 15:49:30
阅读次数:
321
做个网页爬虫或搜索引擎(以下统称蜘蛛程序)的各位一定不会陌生,在爬虫或搜索引擎访问网站的时候查看的第一个文件就是robots.txt了。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
那我们应该怎样使用robots.txt呢?
...
分类:
其他好文 时间:
2014-05-21 15:03:59
阅读次数:
190
404页面是客户端在浏览网页时,服务器无法正常提供信息,或是服务器无法回应,且不知道原因。404错误信息通常是在目标页面被更改或移除,或客户端输入页面地址错误后显示的页面。
404页面是网站必备的一个页面,它承载着用户体验与SEO优化的重任。404页面通常为用户访问了网站上不存在或已删除的页面,服务器返回的404错误。如果站长没有设置404页面,会出现死链接,蜘蛛爬行这类网址时,不利于搜索引擎收...
分类:
其他好文 时间:
2014-05-21 12:26:48
阅读次数:
299