码迷,mamicode.com
首页 >  
搜索关键字:蜘蛛    ( 757个结果
Python简易爬虫以及嵌套数据类型
一:起因 (0)爬虫就是网络蜘蛛,爬取指定URL的html网页的内容,所以会需要urllib2包,字符串string的操作肯定也是需要的,以及字符串匹配包re。 (1)Python的嵌套类型,一般在基础教程里面很少涉及到的;Python的更高级应用肯定会涉及的,只是个人能力有限,如今没有深入,期待不就将来接触学习一下。 (2)说起嵌套类型,这要从Java 或则 c++的嵌套类型说起,只要你处...
分类:编程语言   时间:2015-04-07 12:07:31    阅读次数:189
我的第一个python爬虫程序(从百度贴吧自动下载图片)
这个学期开设了编译原理和形式语言与自动机,里面都有介绍过正则表达式,今天自己学了学用python正则表达式写爬虫 一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页的。 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址...
分类:编程语言   时间:2015-04-04 23:49:43    阅读次数:1019
Dedecms 5.7如何制作网站地图?
dedecms用的人很多,可能大家在使用的过程中会碰到一些问 题,这很正常的,今天我们来讲讲dedecms 5.7如何制作网站地图,其实网站地图分两种,一种做给网友看的,方便网友可以方便地找到自己想浏览的内容,另外 一种是做给搜索引擎蜘蛛看,方便蜘蛛在你网站上面抓取内容。当然,我们这里讲的主要是针对...
分类:Web程序   时间:2015-04-04 15:13:53    阅读次数:121
HDU1584 蜘蛛牌 DFS 简单题
题意:蜘蛛牌是windows xp操作系统自带的一款纸牌游戏,游戏规则是这样的:只能将牌拖到比她大一的牌上面(A最小,K最大),如果拖动的牌上有按顺序排好的牌时,那么这些牌也跟着一起移动,游戏的目的是将所有的牌按同一花色从小到大排好,为了简单起见,我们的游戏只有同一花色的10张牌,从A到10,且随机...
分类:其他好文   时间:2015-04-03 20:53:24    阅读次数:152
网站SEO基础优化技巧之二:robots.txt的写法
第一:什么是robots.txt?这是一个文本文件,是搜索引擎爬行网页要查看的第一个文件,你可以告诉搜索引擎哪些文件可以被查看,哪些禁止。当搜索机器人(也叫搜索蜘蛛)访问一个站点时,它首先会检查根目录是否存在robots.txt,如果有就确定抓取范围,没有就按链接顺序抓取。第二:robots.txt...
分类:Web程序   时间:2015-03-31 12:29:30    阅读次数:128
BloomFilter——大规模数据处理利器
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络蜘蛛(web crawler).....
分类:其他好文   时间:2015-03-29 07:04:10    阅读次数:137
VMWare Esxi + 海蜘蛛配置NAT共享IP上网
VMWare是著名的虚拟化产品公司,VMWare Esxi也是专为服务器设计的虚拟化软件。在安装VMWare Esxi的服务器上可以同时运行多个虚拟系统,充分利用服务器资源。其一大特色之处就在于可以生成虚拟的网络拓扑,通过创建虚拟交换机,可以管理不同虚拟系统上的流量,也令虚拟设备的配置变得更加灵活。...
分类:系统相关   时间:2015-03-19 13:08:15    阅读次数:382
如果微信营销离开了公众号
微信营销,是时下的网络营销主流。很多企业都在通过微信的渠道宣传自己的产品。在微信营销上应用的最多的便是公众号。公众号好比微信的核心灵魂,当微信离开了公众号,微信就好比将死之鱼,食之便无味。公众号是企业和个人的自媒体平台。同时具有营销,客户管理,互动交流,以..
分类:微信   时间:2015-03-17 18:11:18    阅读次数:269
Nginx屏蔽个别User-Agent蜘蛛访问网站的方法
对于做国内站的我来说,我不希望国外蜘蛛来访问我的网站,特别是个别垃圾蜘蛛,它们访问特别频繁。这些垃圾流量多了之后,严重浪费服务器的带宽和资源。通过判断user agent,在nginx中禁用这些蜘蛛可以节省一些流量,也可以防止一些恶意的访问。步骤1、进入nginx的配置目录,例如cd /usr/lo...
分类:Web程序   时间:2015-03-12 12:47:32    阅读次数:167
25个站长必备的SEO优化工具
搜索引擎抓取内容模拟器可以模拟蜘蛛抓取指定网页,包括Text、Link、Keywords及Description信息等。http://www.webconfs.com/search-engine-spider-simulator.php页面相似度检测工具检验两个页面的相似度(如果相似度达80%以上,...
分类:其他好文   时间:2015-03-05 12:41:13    阅读次数:202
757条   上一页 1 ... 62 63 64 65 66 ... 76 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!