码迷,mamicode.com
首页 >  
搜索关键字:spider    ( 1087个结果
scrapy为不同网站设置不同的代理
在公司项目中,有一些爬虫中需要用的国内代理,有一些需要用到国外代理,有一些不用代理我测试了三个方案方案一:在settings.py中开启代理,然后在spider中重写DOWNLOADER_MIDDLEWARES,但重写无法生效方案二:让scrapy切换到不同的settings.py文件,这个手动切换是有效果的,..
分类:Web程序   时间:2014-09-01 15:48:54    阅读次数:251
nginx下禁止访问robots.txt的设置方法
关于robots.txt文件:搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信 息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索...
分类:其他好文   时间:2014-08-29 18:08:08    阅读次数:268
Python网络爬虫
http://blog.csdn.net/pi9nc/article/details/9734437 一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面...
分类:编程语言   时间:2014-08-26 00:06:55    阅读次数:299
Robots协议具体解释
禁止搜索引擎收录的方法(robots.txt)一、什么是robots.txt文件?搜索引擎通过一种程序robot(又称spider),自己主动訪问互联网上的网页并获取网页信息。您能够在您的站点中创建一个纯文本文件robots.txt,在这个文件里声明该站点中不想被robot訪问的部分,这样,该站点的...
分类:其他好文   时间:2014-08-23 11:19:10    阅读次数:338
python爬虫----(1. 基本模块)
python爬虫,web spider。爬取网站获取网页数据,并进行分析提取。 ????基本模块使用的是 urllib,urllib2,re,等模块 (一)基本用法,例子 ????(1)进行基本GET请求,获取网页html #!coding...
分类:编程语言   时间:2014-08-20 00:10:25    阅读次数:376
Codeforces Beta Round #85 (Div. 1 Only) C (状态压缩或是数学?)
C. Petya and SpidersLittle Petya loves training spiders. Petya has a boardn?×?min size. Each cell of the board initially has a spider sitting on it. A...
分类:其他好文   时间:2014-08-17 01:04:31    阅读次数:245
一个网站的诞生07-- Tornado Web Server
用Spider抓取数据,然后再做各种处理,然后放到web页面供大家使用。 那么,就需要一个Web Server。 几乎每种语言都有一大堆Web Server开发框架,Python也不例外,比如这里http://www.zhihu.com/question/20706333。廖雪峰同学还有个python的教程http://www.liaoxuefeng.com/wiki/00137473...
分类:Web程序   时间:2014-08-15 16:07:38    阅读次数:196
nginx 日志过滤网络爬虫访问日志
nginx里面有很多的爬虫日志,会影响到后期的数据分析,所以一般会去掉。nginx排除配置:location/{ #去掉爬虫Start if($http_user_agent~*"bot|spider"){ access_logoff; } #去掉爬虫end proxy_passhttp://cdel_jxjy; ...... }如果特别想要爬虫日志,也可以讲爬虫日志放到指定..
分类:其他好文   时间:2014-08-15 10:51:29    阅读次数:299
百度sitemap常见问题
一、什么是Sitemap?Sitemap(即站点地图)就是您网站上各网页的列表。创建并提交Sitemap有助于百度发现并了解您网站上的所有网页。您还可以使用Sitemap提供有关您网站的其他信息,如上次更新日期、Sitemap文件的更新频率等,供百度Spider参考。百度对已提交的数据,不保证一定会...
分类:其他好文   时间:2014-08-12 16:49:44    阅读次数:666
为什么必须保护Robots协议?
一、从Spider程序到Robots协议 即使不是工程狮,关注互联网的人也很少不知道Robots协议。百度和360从2012年起展开的一场屏蔽与反屏蔽战把原本程序猿才知道的Robots协议变成媒体热词。北京一中院8月7日对3B搜索不正...
分类:其他好文   时间:2014-08-12 09:06:44    阅读次数:149
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!