一、 概念知识介绍
Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题,可以使没有并行 处理或者分布式计算经验的工程师,也能很轻松地写出结构简单的、应用于成百上千台机器处理大规模数据的并行分布式程序。
Hadoop MapReduce基于“分而治之”的思想,将计算任务...
分类:
其他好文 时间:
2014-05-10 04:39:09
阅读次数:
570
声明: 若要转载, 请标明出处.
前提: 在对于大量的数据导入到HBase中, 如果一条一条进行插入, 则太耗时了, 所以可以先采用MapReduce生成HFile文件, 然后使用BulkLoad导入HBase中.
引用:
一、这种方式有很多的优点:
1. 如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk...
分类:
其他好文 时间:
2014-05-10 04:33:38
阅读次数:
513
计划:1. 番茄工作法图解:简单易行的时间管理方法 (完成)2.
大数据:互联网大规模数据挖掘与分布式处理3. 量化:大数据时代的企业管理5. 黑客与画家:来自计算机时代的高见 6. 倾听的力量:如何掌握沟通中的关键商业技巧
7. 失控 凯文·凯利8. 罗辑思维 罗振宇9. 说服力让你...
分类:
其他好文 时间:
2014-05-10 00:36:52
阅读次数:
289
HBase是一个类Bigtable系统,按照Google的论文对
Bigtable的定义是“一种稀疏的,分布式的,持久的多为维度的有序Map。这个Map由row key,column
key和timestamp做为索引,Map中的值是连续的byte数组”。HBase的多维度,包括table和colu...
分类:
其他好文 时间:
2014-05-10 00:30:36
阅读次数:
357
spark shuffle流程分析
回到ShuffleMapTask.runTask函数
现在回到ShuffleMapTask.runTask函数中:
overridedef runTask(context:TaskContext):
MapStatus = {
首先得到要reduce的task的个数。
valnumOutputSplits=
dep.partitioner.num...
分类:
其他好文 时间:
2014-05-09 22:58:33
阅读次数:
574
软件开发这个行业的武器就是编程语言。IT发展到今天,产生了种类繁多的编程语言,有的古老却任然使用,有的新生而激情四射,有的只是昙花一现就黯然消逝,有的则从诞生之日就不断 发展壮大。选择何种编程语言平台,便是摆在很多希望步入IT行业人面前的首道难题。
1.Java
Java语言自1995年发布以来,由于其面向对象、跨平台和分布式的特性迅速风靡整个IT界。加之Sun、Oracle、IB...
分类:
其他好文 时间:
2014-05-09 22:34:31
阅读次数:
355
在这章节的开始,我们曾经提到过ES能扩展到成百上千的服务器,并且能处理PT级别的数据。然而在这个教程中介绍如何使用ES的时候并没有提及到服务器。ES天生为分布式设计,他隐藏了随分布式而来的很多复杂细节。ES的分布式在很大程度上是透明的。教程中不需要你知道有关分布式系统,sharding,cluste...
分类:
其他好文 时间:
2014-05-09 20:09:05
阅读次数:
230
如果你读过贝叶斯学习方面的书或者论文,想必是知道共轭先验这个名词的。现在假设你闭上眼睛,你能准确地说出共轭分布是指哪个分布和哪个分布式共轭的吗?我之前就常常把这个关系弄错,现在记录如下,以加强印象。贝叶斯学派和频率学派的区别之一是特别重视先验信息对于inference的影响,而引入先验信息的手段有“...
分类:
其他好文 时间:
2014-05-09 13:21:33
阅读次数:
271
HubbleDotNet 从 1.2.3 版本以后开始在官方代码中支持和 Mongodb
对接,Mongodb 是10gen 公司开发的 no-sql 数据库,其读写性能比传统关系数据库要快很多,而且可以非常方便的分布式部署。HubbleDotNet
通过支持 Mongodb 也使其本身同时具备了 ...
分类:
数据库 时间:
2014-05-09 08:05:58
阅读次数:
476