搜索关键字：爬虫数据处理，搜索到15133个结果！码迷,mamicode.com！

[Python]网络爬虫（一）：抓取网页的含义和URL基本构成(转)

一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这...

分类：编程语言时间：2014-05-27 00:15:52 阅读次数：328

Hadoop专业解决方案-第3章：MapReduce处理数据

Hadoop的核心处理模块是MapReduce，也是当前最流行的大数据处理架构之一。它能够将Hadoop数据存储无缝的融入到数据处理当中，使得它在操作上足够简单，功能上足够强大。MapReduce已经解决很多实际问题（从日志分析，到数据排序，到文本操作，到基于模式的搜索，到图像处理，到机器学习等等）...

分类：其他好文时间：2014-05-27 00:14:28 阅读次数：449

[Python]网络爬虫（二）：利用urllib2通过指定的URL抓取网页内容(转)

版本号：Python2.7.5，Python3改动较大，各位另寻教程。所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。类似于使用程序模拟IE浏览器的功能，把URL作为HTTP请求的内容发送到服务器端，然后读取服务器端的响应资源。在Python中，我们使用urllib2...

分类：编程语言时间：2014-05-27 00:12:25 阅读次数：323

[Python]网络爬虫（四）：Opener与Handler的介绍和实例应用(转)

在开始后面的内容之前，先来解释一下urllib2中的两个个方法：info and geturlurlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()1.geturl()：这个返回获取的真实的URL，这个很有用，因为urlopen(或...

分类：编程语言时间：2014-05-26 23:17:30 阅读次数：352

[Python]网络爬虫（三）：异常的处理和HTTP状态码的分类(转)

先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时，产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类，通常在特定HTTP URLs中产生。1.URLError...

分类：编程语言时间：2014-05-26 23:17:09 阅读次数：341

【网络大数据】大数据时代：数据融合或将发挥更大价值

大数据_大数据时代_大数据概念_网络大数据随着大数据时代的来临，大数据也吸引了越来越多的关注。网络大数据（http://www.raincent.com）整合了大数据，大数据概念，大数据处理，大数据分析，cdn，cdn加速，idc，网络测量,网络监测，网络安全测量，网站性能监测，行业分析报告，行业研...

分类：其他好文时间：2014-05-26 22:02:55 阅读次数：338

一个简单的多线程爬虫

本文介绍一个简单的多线程并发爬虫，这里说的简单是指爬取的数据规模不大，单机运行，并且不使用数据库，但保证多线程下的数据的一致性，并且能让爬得正起劲的爬虫停下来，而且能保存爬取状态以备下次继续。

分类：编程语言时间：2014-05-26 15:41:47 阅读次数：394

大数据之网络爬虫-一个简单的多线程爬虫

本文介绍一个简单的多线程并发爬虫，这里说的简单是指爬取的数据规模不大，单机运行，并且不使用数据库，但保证多线程下的数据的一致性，并且能让爬得正起劲的爬虫停下来，而且能保存爬取状态以备下次继续。爬虫实现的步骤基本如下：分析网页结构，选取自己感兴趣的部分;建立两个Buffer，一个用于保存已经访问.....

分类：编程语言时间：2014-05-26 13:13:56 阅读次数：318

导线测量求解程序

坐标的推算【精度==0.00m】测量学平p135页，电脑算出来的与书上给出的数据分毫不差今天测量学的实习数据处理1：输入数据：2：观测角误差的自动消除：3：输入起始坐标方位角：4：坐标方位角的自动推算：5：坐标增量的推算：6：坐标增量误差的自动消除：7：起始坐标的输入：8：其它导线点的推算：#inc...

分类：其他好文时间：2014-05-23 04:44:30 阅读次数：293

海量数据处理策略之一—Hash映射 + Hash_map统计 + 堆/快速/归并排序

海量数据处理策略之一—Hash映射 + Hash_map统计 + 堆/快速/归并排序...

分类：其他好文时间：2014-05-23 01:18:40 阅读次数：414

共15133条上一页 1 ... 1502 1503 1504 1505 1506 ... 1514 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)