码迷,mamicode.com
首页 > Web开发 > 详细

【转载】从网站内因分析影响爬虫抓取

时间:2014-09-30 17:03:59      阅读:210      评论:0      收藏:0      [点我收藏+]

标签:使用   sp   c   r   linux   服务器   as   程序   测试   

一个网站只有爬虫抓取了,才能被收录、有快照、有排名。所以搜索引擎爬虫对网站的抓取情况直接决定了一个网站seo的成败。今天笔者就从网站内部本身来分析一下那些因素将影响到搜索引擎爬虫的爬取:
  1、网站速度影响爬虫访问
  机房—DNS服务器—CDN—出口带宽--硬件—操作系统—服务器软件—程序
  机房的位置:最好选择靠近爬虫的线路
  Dns服务器:热门、稳定(推荐dnspod)
  CDN:在做网站日志分析时候记得算进去
  出口带宽:避免与大流量的网站同机房
  硬件:在经济允许下使用配置高的
  操作系统:推荐linux,稳定安全
  程序:安全、效率高、符合w3c标准
  2、nofollow标签的使用控制爬虫抓取
  Nofollow是告诉搜索引擎不追踪不传递权重此链接。
  Nofollow掉每个页面重复出现的链接和对seo无价值的页面,减少爬虫重复抓取每个页面的多余链接,提高爬虫抓取率,增加对重要页面的抓取。
  使用方法 :rel=“nofollow”
  3、其他影响爬虫抓取的因素
  防火墙规则、防攻击设置、防采集规则设置。部分网站为了网站安全,在频频的多次访问后自动断开,可能造成爬虫被拒。
  硬盘转速:很多情况下有的朋友会分割服务器硬盘,分出来的盘做为其他测试之用。如此一来回造成硬盘转速慢,影响爬虫访问速度。

【转载】从网站内因分析影响爬虫抓取

标签:使用   sp   c   r   linux   服务器   as   程序   测试   

原文地址:http://www.cnblogs.com/jspython/p/4001965.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!