码迷,mamicode.com
首页 >  
搜索关键字:抓取    ( 5747个结果
[Python]网络爬虫(一):抓取网页的含义和URL基本构成(转)
一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这...
分类:编程语言   时间:2014-05-27 00:15:52    阅读次数:328
[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容(转)
版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python中,我们使用urllib2...
分类:编程语言   时间:2014-05-27 00:12:25    阅读次数:323
获取大众点评数据
使用.NET实现一个从大众点评抓取一些基础数据(商家名称,地址,电话,经纬度)的小程序。实现逻辑:1、以异步方式从列表上获取前三项(商家名称、地址、电话);2、把获取下来的数据保存到数据库表里;3、把存在数据表里的地址信息读取出来,通过调用QQ地图API把地址转化成经纬度;4、按行更新GIS信息。代...
分类:其他好文   时间:2014-05-26 20:47:04    阅读次数:422
robots.txt用法
robots.txt的主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。robots.txt不是一种规范,是约定俗成...
分类:其他好文   时间:2014-05-26 13:04:58    阅读次数:228
php curl简单使用
使用PHP的cURL库可以简单和有效地去抓网页,您只需要运行一个脚本,然后分析一下您所抓取的网页,然后就可以以程序的方式得到您想要的数据了。无论是您想从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,哪怕就是简单的获取网页内容,cURL是一个功能强大的PHP库。本文主要讲述如果使用这个P...
分类:Web程序   时间:2014-05-26 09:40:36    阅读次数:315
简单爬虫-抓取博客园文章列表
如果使用对方网站数据,而又没有响应的接口,或者使用接口不够灵活的情况下,使用爬虫在合适不过了。爬虫有几种,对方网站展示形式有几种都是用分析,每个网站展示有相似的地方,有不同的地方。 大部分使用httpRequst就能完成,不管是否添加了口令、随即码、请求参数、提交方式get或者post、地址来源、....
分类:其他好文   时间:2014-05-22 10:13:09    阅读次数:370
SEOer该如何优化网站质量
SEOer们都知道,现在都搜索引擎收录对整个网站的页面质量要求更加高了,怎样打造高质量的网页呢?2大步骤介绍. 第一步,站在用户的角度去思考 因为我们知道我们的内容不是给搜索引擎蜘蛛看的,是给用户看的,搜索引擎蜘蛛只是一个你网站的普通访客,它的任务很简单,就是按照一定的规则进行 抓取,它...
分类:Web程序   时间:2014-05-22 02:01:04    阅读次数:292
简单爬虫-抓取博客园文章列表
原文:简单爬虫-抓取博客园文章列表 如果使用对方网站数据,而又没有响应的接口,或者使用接口不够灵活的情况下,使用爬虫在合适不过了。爬虫有几种,对方网站展示形式有几种都是用分析,每个网站展示有相似的地方,有不同的地方。 大部分使用httpRequst就能完成,不管是否添加了口令、随即码、请求参数、提交...
分类:其他好文   时间:2014-05-22 00:45:58    阅读次数:468
如何利用 release 版本的 backtrace 来定位 android NDK 程序的崩溃位置
我们知道 android NDK 程序在崩溃时会生成一个 tombstone 的 backtrace (也可利用 ADB logcat 抓取),从这个 backtrace 中我们可以了解是哪个函数引发的崩溃,但是通常由于我们发布时都是 release 版,无法利用 backtrace 中的地址信息直接定位到源码和行号,当引发崩溃的错误不是很明显时,对于我们解决问题的帮助就不大。 这时通常我们是重...
分类:移动开发   时间:2014-05-21 15:30:02    阅读次数:502
nutch2.1抓取中文网站
对nutch添加中文网站抓取功能。1、中文网页抓取A、调整mysql配置,避免存入mysql的中文出现乱码。修改${APACHE_NUTCH_HOME}/runtime/local/conf/gora.properties################################MySQLproperties################################gora.sqlstore.jdbc.driver=com..
分类:Web程序   时间:2014-05-20 19:17:55    阅读次数:539
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!