码迷,mamicode.com
首页 > 其他好文 > 详细

Robots.txt详解

时间:2017-07-23 18:23:43      阅读:137      评论:0      收藏:0      [点我收藏+]

标签:dex   index   防止   网络   txt   冒号   不能   网络爬虫   如何   

Robots协议(爬虫协议、机器人协议)的全称是“网络爬虫排除标准”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取;

优化蜘蛛爬行:

  1、提高爬行效率

  2、减少带宽消耗

  3、防止双收录

如何在自己的网站设置robots.txt?

  1、新建Robots.txt

  2、编辑内容

  3、上传到根目录

  注意:Robots.txt文件名必须都是小写

     Robots.txt必须放到网站根目录

Robots.txt语法详解:

  User-agent: Baiduspider

  注意:在冒号后面,要加一个空格。否则不生效。

  Disallow

  Disallow: *?*

    禁止搜索引擎收录动态的URL

  Allow

  Allow: .jpg$

   $ : 通配符,用来表示某一类型文件后缀

 

Robots.txt提交地图:

  Sitemap:http://...

如何检测Robots.txt ?

  网址:http://zhanzhang.baidu.com/robots/index

 

 

 

  

 

Robots.txt详解

标签:dex   index   防止   网络   txt   冒号   不能   网络爬虫   如何   

原文地址:http://www.cnblogs.com/chengshun/p/7225184.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!