从hadoop框架与MapReduce模式中谈海量数据处理前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,认为它们非常是神奇,而神奇的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,认为Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到...
分类:
其他好文 时间:
2014-08-16 18:29:30
阅读次数:
339
前言:
以前所接触到的位图的思想都是以1位的形式去存储某个数出现的次数是1次还是0次。常见的例子不外乎在《编程珠玑》上的开篇例子里,1千万个数的排序统计,用1.25M的内存空间就可以达到遍历一遍输入数据而排序好的目的。这种思想是通用的么?也就是说,假如输入数据不再是0次或者1次,而是2次或者更多的时候,如何再次用上这种思想呢?请看下面题目
题目:
输入一个数组,数组有int类型整数若...
分类:
其他好文 时间:
2014-08-16 15:08:50
阅读次数:
160
1. Bit Map算法简介 ? ? ? ??来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。 2、 Bi...
分类:
其他好文 时间:
2014-08-15 18:10:20
阅读次数:
266
希尔算法简介 常见排序算法一般按平均时间复杂度分为两类:O(n^2):冒泡排序、选择排序、插入排序O(nlogn):归并排序、快速排序、堆排序简单排序时间复杂度一般为O(n^2),如...
分类:
编程语言 时间:
2014-08-13 21:57:07
阅读次数:
271
代码实现 #include "stdafx.h"#include #include using namespace std;int a[1...
分类:
编程语言 时间:
2014-08-12 21:39:44
阅读次数:
249
在面对大数据量的排序时(100W以上量级数据),通常用以下三种的排序方法:快速排序、归并排序,堆排序。在这个量级上,其他冒泡,选择,插入排序等已经根本没法看了,效率极低,跟前面三种排序差了千百倍,因此不作比较。这三种排序的平均时间复杂度均为O(nlogn),快速排序,归并排序在面对基本有序序列排序时...
分类:
编程语言 时间:
2014-08-12 21:36:44
阅读次数:
286
代码实现 #include "stdafx.h"#include #include using namespac...
分类:
编程语言 时间:
2014-08-12 21:34:54
阅读次数:
217
Hive 运行架构
由Facebook开源,最初用于解决海量结构化的日志数据统计问题:ETL工具;
构建于Hadoop的HDFS和MapReduce智商,用于管理和查询结构化/非结构化数据的数据仓库;
设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据:
使用HQL作为查询接口;
使用HDFS作为存储底层;...
分类:
其他好文 时间:
2014-08-12 19:05:44
阅读次数:
314
题目描述
给你一个文件,里面包含40亿个整数,写一个算法找出该文件中不包含的一个整数, 假设你有1GB内存可用。
如果你只有10MB的内存呢?...
分类:
其他好文 时间:
2014-08-11 00:26:01
阅读次数:
261
从hadoop框架与MapReduce模式中谈海量数据处理前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,认为它们非常是神奇,而神奇的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,认为Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到...
分类:
其他好文 时间:
2014-08-09 18:40:08
阅读次数:
297