http://blog.sina.com.cn/s/blog_7ca5799101013dtb.html目前,虽然大数据与数据库一体机都很火热,但相当一部分人却无法对深入了解这两者的本质区别。这里便对大数据技术(如Hadoop等,主要指MapReduce与NoSQL)与数据库一体机(新一代的主流关系...
分类:
数据库 时间:
2014-06-29 06:09:08
阅读次数:
298
摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写...
分类:
其他好文 时间:
2014-06-29 00:17:14
阅读次数:
369
本文分析了Spark1.0.0的Client,Master和Worker之间是如何通信的。通过对通信的分析,可以清楚的理解各个角色的作用和责任,和它在集群中扮演的不同角色。
当然了,为了便于源码分析,本文开始分析了akka,一个非常优秀的actor的实现:高性能,易于编程,可扩展和弹性无中心。...
分类:
其他好文 时间:
2014-06-18 06:59:54
阅读次数:
183
HBase在大数据领域的应用越来越广泛,成为目前NoSQL数据库中表现最耀眼,呼声最高的产品之一,但就应对复杂条件的查询来说,一般认为它并不是非常适合,熟悉HBase的开发人员对此应该有一定的体会,但是基于普遍的需求,开发者们希望HBase在保持高性能优势的同时能对复杂条件的查询给予一定的支持,而本文将要介绍的正是一种在HBase现行机制下以非侵入式实现的基于二级多列索引的高性能复杂条件查询引擎。...
分类:
其他好文 时间:
2014-06-18 06:29:49
阅读次数:
224
让世界球迷翘首以盼的世界杯,在热情的桑巴舞和全世界球迷的欢呼中如期而至。在此期间,无论是资深球迷还是伪球迷,甚至是压根不看球的普通人,对于世界杯,都必然提及一二,这俨然成为了世界的节日,一个万众期待的狂欢party。随着移动互联的高度普及和发展,“社交足球”似乎踢得比世界杯还火热,各种渠道,各种工具...
分类:
其他好文 时间:
2014-06-17 23:30:11
阅读次数:
290
1. Install Java and set JAVA_HOME2. Install IntelliJ IDH and Scala plugin3. Download spark1.0.04. Generate a workspace for IDEA[shaochen@linux spark-1...
分类:
其他好文 时间:
2014-06-17 19:55:22
阅读次数:
262
随着企业开始同时利用云计算和大数据技术,现在应当考虑如何将这些工具结合使用。尤其是OpenStack作为目前最流行的开源云版本如何部署在Hadoop上。...
分类:
其他好文 时间:
2014-06-17 19:00:58
阅读次数:
304
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。
从2011年开始,中国进入大数据风起云...
分类:
其他好文 时间:
2014-06-17 16:44:25
阅读次数:
310
Scala是一种函数式语言和面向对象语言结合的新语言,本笔记中就零散记下学习scala的一些心得,主要侧重函数式编程方面。##1. 以递归为核心控制结构。实现循环处理的方式有三种:goto,for/while,递归,其中用goto实现循环已经在现代语言中被放弃,而for/while形式的结构化编程成...
分类:
其他好文 时间:
2014-06-17 16:01:37
阅读次数:
163
怎样处理海量数据在实际的工作环境下,很多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有下面几个方面:一、数据量过大,数据中什么情况都可能存在。假设说有10条数据,那么大不了每条去逐一检查,人为处理,假设有上百条数据,也能够考虑,假设数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具...
分类:
其他好文 时间:
2014-06-17 15:02:18
阅读次数:
194