搜索关键字：spider，搜索到1087个结果！码迷,mamicode.com！

scrapy为不同网站设置不同的代理

在公司项目中，有一些爬虫中需要用的国内代理，有一些需要用到国外代理，有一些不用代理我测试了三个方案方案一：在settings.py中开启代理，然后在spider中重写DOWNLOADER_MIDDLEWARES，但重写无法生效方案二：让scrapy切换到不同的settings.py文件，这个手动切换是有效果的，..

分类：Web程序时间：2014-09-01 15:48:54 阅读次数：251

nginx下禁止访问robots.txt的设置方法

关于robots.txt文件：搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt，在这个文件中声明该网站中不想被robot 访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索...

分类：其他好文时间：2014-08-29 18:08:08 阅读次数：268

Python网络爬虫

http://blog.csdn.net/pi9nc/article/details/9734437 一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面...

分类：编程语言时间：2014-08-26 00:06:55 阅读次数：299

Robots协议具体解释

禁止搜索引擎收录的方法（robots.txt）一、什么是robots.txt文件?搜索引擎通过一种程序robot（又称spider），自己主动訪问互联网上的网页并获取网页信息。您能够在您的站点中创建一个纯文本文件robots.txt，在这个文件里声明该站点中不想被robot訪问的部分，这样，该站点的...

分类：其他好文时间：2014-08-23 11:19:10 阅读次数：338

python爬虫----（1. 基本模块）

python爬虫，web spider。爬取网站获取网页数据，并进行分析提取。 ????基本模块使用的是 urllib，urllib2，re，等模块（一）基本用法，例子 ????（1）进行基本GET请求，获取网页html #!coding...

分类：编程语言时间：2014-08-20 00:10:25 阅读次数：376

Codeforces Beta Round #85 (Div. 1 Only) C （状态压缩或是数学？）

C. Petya and SpidersLittle Petya loves training spiders. Petya has a boardn?×?min size. Each cell of the board initially has a spider sitting on it. A...

分类：其他好文时间：2014-08-17 01:04:31 阅读次数：245

一个网站的诞生07-- Tornado Web Server

用Spider抓取数据，然后再做各种处理，然后放到web页面供大家使用。那么，就需要一个Web Server。几乎每种语言都有一大堆Web Server开发框架，Python也不例外，比如这里http://www.zhihu.com/question/20706333。廖雪峰同学还有个python的教程http://www.liaoxuefeng.com/wiki/00137473...

分类：Web程序时间：2014-08-15 16:07:38 阅读次数：196

nginx 日志过滤网络爬虫访问日志

nginx里面有很多的爬虫日志，会影响到后期的数据分析，所以一般会去掉。nginx排除配置：location/{ #去掉爬虫Start if($http_user_agent~*"bot|spider"){ access_logoff; } #去掉爬虫end proxy_passhttp://cdel_jxjy; ...... }如果特别想要爬虫日志，也可以讲爬虫日志放到指定..

分类：其他好文时间：2014-08-15 10:51:29 阅读次数：299

百度sitemap常见问题

一、什么是Sitemap？Sitemap（即站点地图）就是您网站上各网页的列表。创建并提交Sitemap有助于百度发现并了解您网站上的所有网页。您还可以使用Sitemap提供有关您网站的其他信息，如上次更新日期、Sitemap文件的更新频率等，供百度Spider参考。百度对已提交的数据，不保证一定会...

分类：其他好文时间：2014-08-12 16:49:44 阅读次数：666

为什么必须保护Robots协议？

一、从Spider程序到Robots协议即使不是工程狮，关注互联网的人也很少不知道Robots协议。百度和360从2012年起展开的一场屏蔽与反屏蔽战把原本程序猿才知道的Robots协议变成媒体热词。北京一中院8月7日对3B搜索不正...

分类：其他好文时间：2014-08-12 09:06:44 阅读次数：149

共1087条上一页 1 ... 104 105 106 107 108 109 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)