一、网络爬虫的定义网络爬虫,即Web
Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这...
分类:
编程语言 时间:
2014-05-27 00:15:52
阅读次数:
328
版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端,
然后读取服务器端的响应资源。在Python中,我们使用urllib2...
分类:
编程语言 时间:
2014-05-27 00:12:25
阅读次数:
323
使用.NET实现一个从大众点评抓取一些基础数据(商家名称,地址,电话,经纬度)的小程序。实现逻辑:1、以异步方式从列表上获取前三项(商家名称、地址、电话);2、把获取下来的数据保存到数据库表里;3、把存在数据表里的地址信息读取出来,通过调用QQ地图API把地址转化成经纬度;4、按行更新GIS信息。代...
分类:
其他好文 时间:
2014-05-26 20:47:04
阅读次数:
422
robots.txt的主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。robots.txt不是一种规范,是约定俗成...
分类:
其他好文 时间:
2014-05-26 13:04:58
阅读次数:
228
使用PHP的cURL库可以简单和有效地去抓网页,您只需要运行一个脚本,然后分析一下您所抓取的网页,然后就可以以程序的方式得到您想要的数据了。无论是您想从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,哪怕就是简单的获取网页内容,cURL是一个功能强大的PHP库。本文主要讲述如果使用这个P...
分类:
Web程序 时间:
2014-05-26 09:40:36
阅读次数:
315
如果使用对方网站数据,而又没有响应的接口,或者使用接口不够灵活的情况下,使用爬虫在合适不过了。爬虫有几种,对方网站展示形式有几种都是用分析,每个网站展示有相似的地方,有不同的地方。
大部分使用httpRequst就能完成,不管是否添加了口令、随即码、请求参数、提交方式get或者post、地址来源、....
分类:
其他好文 时间:
2014-05-22 10:13:09
阅读次数:
370
SEOer们都知道,现在都搜索引擎收录对整个网站的页面质量要求更加高了,怎样打造高质量的网页呢?2大步骤介绍.
第一步,站在用户的角度去思考
因为我们知道我们的内容不是给搜索引擎蜘蛛看的,是给用户看的,搜索引擎蜘蛛只是一个你网站的普通访客,它的任务很简单,就是按照一定的规则进行 抓取,它...
分类:
Web程序 时间:
2014-05-22 02:01:04
阅读次数:
292
原文:简单爬虫-抓取博客园文章列表
如果使用对方网站数据,而又没有响应的接口,或者使用接口不够灵活的情况下,使用爬虫在合适不过了。爬虫有几种,对方网站展示形式有几种都是用分析,每个网站展示有相似的地方,有不同的地方。
大部分使用httpRequst就能完成,不管是否添加了口令、随即码、请求参数、提交...
分类:
其他好文 时间:
2014-05-22 00:45:58
阅读次数:
468
我们知道 android NDK 程序在崩溃时会生成一个 tombstone 的 backtrace (也可利用 ADB logcat 抓取),从这个 backtrace 中我们可以了解是哪个函数引发的崩溃,但是通常由于我们发布时都是 release 版,无法利用 backtrace 中的地址信息直接定位到源码和行号,当引发崩溃的错误不是很明显时,对于我们解决问题的帮助就不大。
这时通常我们是重...
分类:
移动开发 时间:
2014-05-21 15:30:02
阅读次数:
502
对nutch添加中文网站抓取功能。1、中文网页抓取A、调整mysql配置,避免存入mysql的中文出现乱码。修改${APACHE_NUTCH_HOME}/runtime/local/conf/gora.properties################################MySQLproperties################################gora.sqlstore.jdbc.driver=com..
分类:
Web程序 时间:
2014-05-20 19:17:55
阅读次数:
539