搜索关键字：海量数据，搜索到1645个结果！码迷,mamicode.com！

从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构）

从hadoop框架与MapReduce模式中谈海量数据处理前言几周前，当我最初听到，以致后来初次接触Hadoop与MapReduce这两个东西，我便稍显兴奋，认为它们非常是神奇，而神奇的东西常能勾起我的兴趣，在看过介绍它们的文章或论文之后，认为Hadoop是一项富有趣味和挑战性的技术，且它还牵扯到...

分类：其他好文时间：2014-08-16 18:29:30 阅读次数：339

以另一种位图的思想来解决一道OJ题目

前言：以前所接触到的位图的思想都是以1位的形式去存储某个数出现的次数是1次还是0次。常见的例子不外乎在《编程珠玑》上的开篇例子里，1千万个数的排序统计，用1.25M的内存空间就可以达到遍历一遍输入数据而排序好的目的。这种思想是通用的么？也就是说，假如输入数据不再是0次或者1次，而是2次或者更多的时候，如何再次用上这种思想呢？请看下面题目题目：输入一个数组，数组有int类型整数若...

分类：其他好文时间：2014-08-16 15:08:50 阅读次数：160

海量数据处理算法—Bit-Map

1. Bit Map算法简介 ? ? ? ??来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。 2、 Bi...

分类：其他好文时间：2014-08-15 18:10:20 阅读次数：266

处理海量数据的高级排序之——希尔排序（C++）

希尔算法简介常见排序算法一般按平均时间复杂度分为两类：O(n^2)：冒泡排序、选择排序、插入排序O(nlogn)：归并排序、快速排序、堆排序简单排序时间复杂度一般为O(n^2)，如...

分类：编程语言时间：2014-08-13 21:57:07 阅读次数：271

处理海量数据的三大排序之——归并排序（C++）

代码实现 #include "stdafx.h"#include #include using namespace std;int a[1...

分类：编程语言时间：2014-08-12 21:39:44 阅读次数：249

处理海量数据的三大排序之——堆排序（C++）

在面对大数据量的排序时（100W以上量级数据），通常用以下三种的排序方法：快速排序、归并排序，堆排序。在这个量级上，其他冒泡，选择，插入排序等已经根本没法看了，效率极低，跟前面三种排序差了千百倍，因此不作比较。这三种排序的平均时间复杂度均为O(nlogn)，快速排序，归并排序在面对基本有序序列排序时...

分类：编程语言时间：2014-08-12 21:36:44 阅读次数：286

处理海量数据的三大排序之——快速排序（C++）

代码实现 #include "stdafx.h"#include #include using namespac...

分类：编程语言时间：2014-08-12 21:34:54 阅读次数：217

Hive运行架构及配置部署

Hive 运行架构由Facebook开源，最初用于解决海量结构化的日志数据统计问题：ETL工具；构建于Hadoop的HDFS和MapReduce智商，用于管理和查询结构化/非结构化数据的数据仓库；设计目的是让SQL技能良好，但Java技能较弱的分析师可以查询海量数据：使用HQL作为查询接口；使用HDFS作为存储底层；...

分类：其他好文时间：2014-08-12 19:05:44 阅读次数：314

002 bitmap海量数据的快速查找和去重

题目描述给你一个文件，里面包含40亿个整数，写一个算法找出该文件中不包含的一个整数，假设你有1GB内存可用。如果你只有10MB的内存呢？...

分类：其他好文时间：2014-08-11 00:26:01 阅读次数：261

从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构）

从hadoop框架与MapReduce模式中谈海量数据处理前言几周前，当我最初听到，以致后来初次接触Hadoop与MapReduce这两个东西，我便稍显兴奋，认为它们非常是神奇，而神奇的东西常能勾起我的兴趣，在看过介绍它们的文章或论文之后，认为Hadoop是一项富有趣味和挑战性的技术，且它还牵扯到...

分类：其他好文时间：2014-08-09 18:40:08 阅读次数：297