上面我们谈了在搜索引擎中,如何建立索引,这里,我们讲如何自动下载互联网上所有的网页,重点就是图论中的遍历算法。 1.图论和网络爬虫 遍历算法主要有两种,一种是深度优先遍历,一种是广度优先遍历。所谓深度优先遍历,就是从一个节点开始,一直沿着一条路走到底,直到没路了,再回过头去找别的路,再一路走...
分类:
其他好文 时间:
2014-10-27 22:54:08
阅读次数:
253
写了一个抓taobao图片的爬虫,全是用if,for,while写的,比较简陋,入门作品。从网页http://mm.taobao.com/json/request_top_list.htm?type=0&page=中提取taobao模特的照片。# -*- coding: cp936 -*-impor...
分类:
编程语言 时间:
2014-10-26 13:02:32
阅读次数:
151
最近在玩爬虫,有时候会爬下来很多感兴趣文件的连接。如果自己手动下载它们的话工作量实在太大。于是,简单写了个下载小脚本:import os, urllib2os.chdir(r'd:')url = 'http://image16-c.poco.cn/mypoco/myphoto/20140826/09...
分类:
编程语言 时间:
2014-10-25 20:03:43
阅读次数:
177
题记: 1024,今天是个程序猿的节日 ,哈哈,转为正题,从事了一线网络爬虫开发有近1000天。简单阐述下个人对网络爬虫的理解。提纲: 1:是什么 2:能做什么 3:怎么做 4:综述 1:是什么 wiki释义:网络蜘蛛(Web spider)也叫网络爬虫(Web crawler)...
分类:
其他好文 时间:
2014-10-24 12:24:26
阅读次数:
208
reference: http://www.52nlp.cn/python-%e7%bd%91%e9%a1%b5%e7%88%ac%e8%99%ab-%e6%96%87%e6%9c%ac%e5%a4%84%e7%90%86-%e7%a7%91%e5%ad%a6%e8%ae%a1%e7%ae%97-%...
分类:
编程语言 时间:
2014-10-24 10:33:17
阅读次数:
430
版本号:Python2.7.5,Python3改动较大。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python中,我们使用urllib2这个组件来抓取...
分类:
编程语言 时间:
2014-10-24 01:32:31
阅读次数:
232
一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这...
分类:
编程语言 时间:
2014-10-24 00:11:57
阅读次数:
276
这两天发现了一个叫看知乎的网站,是知乎大牛苏莉安做的,其中爬虫使用的 Node.js。这里就针对上一篇博客中的美剧小爬虫,改用 nodejs 进行实现一下,体验一下强大的 Node.js。如果之前没有用过 JavaScript,不妨到 http://www.codecademy.com/ 做一下 JavaScript 和 jQuery 的入门练习,快速熟悉一下基本语法,有其他语言基础的话一天时间足够。对其有基本的了解后,就会发现 JavaScript 的两大特点:使用基于原型(prototype)的方式来...
分类:
Web程序 时间:
2014-10-23 22:43:19
阅读次数:
305
案例:页面中的一个链接,审核元素得到的地址是“http://iphone.myzaker.com/l.php?l=54472e161bc8e0fd4a8b4573” ,点击之后页面自动跳转到另一个地址“http://mp.weixin.qq.com/s?__biz=MjM5NjExNjI4MA=.....
分类:
Web程序 时间:
2014-10-23 18:54:19
阅读次数:
165