微博的诞生、云计算、物联网、移动互联网等各种爆炸式数据,给商业智能的蓬勃发展提供了良好的“大数据”环境。大数据为BI带来了海量数据。对挖掘来说,大数据量要更容易对比.抢夺大数据市场,需要具备一定的实力,报表的呈现和简易分析只是停留在“B”的阶段,要想达到“I”的阶段,必须要结合整个大环境、大行业的数...
分类:
其他好文 时间:
2014-05-26 07:08:41
阅读次数:
221
思路:1、排序,取前k个元素;O(NlogN);2、分治,O(n),利用快排的思想;3、用set 维护最小的k个数,O(NlogK),可处理海量数据。...
分类:
其他好文 时间:
2014-05-26 03:38:58
阅读次数:
222
大型网站技术架构(一)--大型网站架构演化
每一个模式描述了一个在我们周围不断重复发生的问题及该问题解决方案的核心。这样,你就能一次又一次地使用该方案而不必做重复工作。
所谓网站架构模式即为了解决大型网站面临的高并发访问、海量数据、高可靠运行灯一系列问题与挑战。为此,在实践中提出了许多解决方案,以实现网站高性能、高可靠性、易伸缩、可扩展、安全等各种技术...
分类:
Web程序 时间:
2014-05-25 11:08:44
阅读次数:
306
海量数据处理策略之一—Hash映射 + Hash_map统计 + 堆/快速/归并排序...
分类:
其他好文 时间:
2014-05-23 01:18:40
阅读次数:
414
Hadoop 的优势
Hadoop 是 一 个 能 够 让 用 户 轻 松 架 构 和 使 用 的 分 布 式 计 算 平 台。 用 户 可 以 轻 松 地 在Hadoop 上开发运行处理海量数据的应用程序。它主要有以下几个优点:
1.高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖。
2.高扩展性。Hadoop 是在可用的计算机集簇间分配数据完成计算任务的, 这些集簇可以方便地...
分类:
其他好文 时间:
2014-05-22 12:26:27
阅读次数:
217
Java实现的一个词频统计程序,考虑海量数据应该怎么做?MapReduce?!...
分类:
编程语言 时间:
2014-05-22 11:29:46
阅读次数:
361
这篇文章不提原理,讲讲hadoop及其周边项目的作用。
hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢?
官方定义:hadoop是一个开发和运行处理大规模数据的软件平台。核心词语是平台,也就是说我们有大量的数据,又有好几个电脑,我们知道应该把处理数据的任务分解到各个电脑上,但是不知道怎样分配任务,怎样回收结果,hadoop大概就帮助我们做了...
分类:
其他好文 时间:
2014-05-22 10:34:39
阅读次数:
288
代志远早年就职网易研究院从事MapReduce与DFS系统的自主研发,后加入支付宝数据平台负责Hadoop与HBase体系的架构设计与二次研发,支付宝流计算与分布式搜索系统的设计和研发,后成为支付宝海量计算体系架构师兼支付宝三代架构成员。现就转战于阿里巴巴集团-CDO-海量数据部门,负责创新性项目的研究和跟进,目前专注于Google第二代数据库产品MegaStore的研究和在阿里的落地。
在...
分类:
数据库 时间:
2014-05-21 17:04:40
阅读次数:
393
说明MapReduce是一种分布式计算模型,解决海量数据的计算问题,主要有Map和Reduce组成用户使用时需要实现map()和reduce()两个函数,两个函数的形参都是key/value键值对若以eclipse为开发环境,运行时出现内存不足的情况,需要修改虚拟机的参数
(例如把Default V...
分类:
其他好文 时间:
2014-05-19 11:56:18
阅读次数:
352
比较Java原生的 3种Map的效率。 1. TreeMap 2. HashMap 3.
ConcurrentSkipListMap 结果: 模拟150W以内海量数据的插入和查找,通过增加和查找两方面的性能测试,结果如下: Map类型 插入
查找(在100W数据量中) ...
分类:
编程语言 时间:
2014-05-15 22:44:30
阅读次数:
556