码迷,mamicode.com
首页 >  
搜索关键字:spider    ( 1087个结果
禁止搜索引擎收录的方法
什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt...
分类:其他好文   时间:2015-07-07 18:29:56    阅读次数:115
【HTTP】WEB机器人
《HTTP权威指南》学习摘要Web Robot的自活跃(self-animating)用户代理。Web机器人是在不需要人工干预的情况下,自动进行一系列Web事务处理的软件程序,别名“爬虫“(crawler),”蜘蛛“(spider),”蠕虫“。爬虫及爬行方式,Web法宠是一种机器人,他们会递归地对各...
分类:Web程序   时间:2015-07-01 13:40:27    阅读次数:232
【转】Duplicate Elimination in Scrapy
本文转载自:http://blog.pluskid.org/?p=381 之前介绍 Scrapy的时候提过 Spider Trap ,实际上,就算是正常的网络拓扑,也是很复杂的相互链接,虽然我当时给的那个例子对于我感兴趣的内容是可以有一个线性顺序依次爬下来的,但是这样的情况在真正的网络结构中通...
分类:其他好文   时间:2015-06-27 11:19:22    阅读次数:121
14个不利于网站优化的事项
东莞网站优化如何排除不利于网站优化的事项,提高网站排名是每个seoer的最终目标。SEO的过程就是知道和了解搜索引擎蜘蛛如何去抓取网站页面,然后对于网页本身进行一些调整,比如网站框架优化,代码优化等,使得搜索引擎蜘蛛(SPIDER)更顺利地抓取到页面的内容的过程。但是咱们在优化过程中,四海营销提醒....
分类:Web程序   时间:2015-06-26 17:29:54    阅读次数:188
中文WebFont解决方案Font-Spider(字蛛)
我们在日常需求中,经常会碰到视觉设计师对某个中文字体效果非常坚持的情况,因为页面是否高大上,字体选择是很重要的一个因素,选择合适的字体可以让页面更优雅。面对这种问题,我们通常以下方式来进行设计还原:使用图片背景还原设计,即使用photoshop将文本图层单独导出成网页背景图片。产生的问题1.制作与维...
分类:Web程序   时间:2015-06-24 14:15:23    阅读次数:152
同时运行多个scrapy爬虫的几种方法(自定义scrapy项目命令)
如果我们有10个定制的spider,甚至更多。此时我们怎么快速地让这些spider运行起来呢?通过shell脚本是一种方式,官方也给出了scrapy同时运行多个脚本的方法。然而这些方法感觉都比较笨拙,同时也是为了学习一下scrapy是怎么自定义命令的。因此本文通过自定义scrapy命令的方式来快速运...
分类:其他好文   时间:2015-06-16 18:50:28    阅读次数:130
Python爬行动物(一):基本概念
定义网络爬虫 网络爬虫(Web Spider,也被称为网络蜘蛛,网络机器人,也被称为网页追逐者)。按照一定的规则,维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自己主动索引,模拟程序或者蠕虫。假设把互联网比喻成一个蜘蛛网。那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通...
分类:编程语言   时间:2015-06-16 16:07:24    阅读次数:189
Faq_flask : AttributeError: ‘module’ object has no attribute ‘autoescape’
原文地址:http://www.suzf.net/thread-0613-153.html转载须注明原始出处前些天从“spider_net”上找了一篇文章,大致就是利用highcharts+flask+mysql构建的一个简单的监控系统,经过几番挣扎终于还是给捣持出来了,现在总结一下,分享给大家.o_O部分报错信息:*Detectedchangein‘..
分类:其他好文   时间:2015-06-14 00:38:42    阅读次数:192
spider autohome (1)
Code:#!/usr/bin/python# -*- coding: UTF-8 -*-import reimport urllibimport timedef getHtml(url): """ This function just simply get all the data ...
分类:其他好文   时间:2015-06-05 21:07:49    阅读次数:177
数据抓取练习
代码放在Github上了。https://github.com/lpe234/meizi_spider? 基于Scrapy(0.22)爬虫示例 获取(http://www.meizitu.com/)网站图片,并保存到本地文件夹(meizi_images)下。 运行 python?run_spider.py??#?即...
分类:其他好文   时间:2015-06-04 22:56:26    阅读次数:306
1087条   上一页 1 ... 96 97 98 99 100 ... 109 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!