码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
[Python]网络爬虫(一):抓取网页的含义和URL基本构成(转)
一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这...
分类:编程语言   时间:2014-05-27 00:15:52    阅读次数:328
Hadoop专业解决方案-第3章:MapReduce处理数据
Hadoop的核心处理模块是MapReduce,也是当前最流行的大数据处理架构之一。它能够将Hadoop数据存储无缝的融入到数据处理当中,使得它在操作上足够简单,功能上足够强大。MapReduce已经解决很多实际问题(从日志分析,到数据排序,到文本操作,到基于模式的搜索,到图像处理,到机器学习等等)...
分类:其他好文   时间:2014-05-27 00:14:28    阅读次数:449
[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容(转)
版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python中,我们使用urllib2...
分类:编程语言   时间:2014-05-27 00:12:25    阅读次数:323
[Python]网络爬虫(四):Opener与Handler的介绍和实例应用(转)
在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and geturlurlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()1.geturl():这个返回获取的真实的URL,这个很有用,因为urlopen(或...
分类:编程语言   时间:2014-05-26 23:17:30    阅读次数:352
[Python]网络爬虫(三):异常的处理和HTTP状态码的分类(转)
先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTTP URLs中产生。1.URLError...
分类:编程语言   时间:2014-05-26 23:17:09    阅读次数:341
【网络大数据】大数据时代:数据融合或将发挥更大价值
大数据_大数据时代_大数据概念_网络大数据随着大数据时代的来临,大数据也吸引了越来越多的关注。网络大数据(http://www.raincent.com)整合了大数据,大数据概念,大数据处理,大数据分析,cdn,cdn加速,idc,网络测量,网络监测,网络安全测量,网站性能监测,行业分析报告,行业研...
分类:其他好文   时间:2014-05-26 22:02:55    阅读次数:338
一个简单的多线程爬虫
本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。
分类:编程语言   时间:2014-05-26 15:41:47    阅读次数:394
大数据之网络爬虫-一个简单的多线程爬虫
本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。 爬虫实现的步骤基本如下:分析网页结构,选取自己感兴趣的部分;建立两个Buffer,一个用于保存已经访问.....
分类:编程语言   时间:2014-05-26 13:13:56    阅读次数:318
导线测量求解程序
坐标的推算【精度==0.00m】测量学平p135页,电脑算出来的与书上给出的数据分毫不差今天测量学的实习数据处理1:输入数据:2:观测角误差的自动消除:3:输入起始坐标方位角:4:坐标方位角的自动推算:5:坐标增量的推算:6:坐标增量误差的自动消除:7:起始坐标的输入:8:其它导线点的推算:#inc...
分类:其他好文   时间:2014-05-23 04:44:30    阅读次数:293
海量数据处理策略之一—Hash映射 + Hash_map统计 + 堆/快速/归并排序
海量数据处理策略之一—Hash映射 + Hash_map统计 + 堆/快速/归并排序...
分类:其他好文   时间:2014-05-23 01:18:40    阅读次数:414
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!