一、Hadoop概述
hadoop由两部分组成,分别是分布式文件系统和分布式计算框架MapReduce。其中,分布式文件系统主要用于大规模数据的分布式存储,而MapReduce 则构建在分布式文件系
统之上,对存储在分布式文件系统中的数据进行分布式计算。
2、在Hadoop 中,MapReduce 底层的分布式文件系统是独立模块,用户可按照约定的一套接口实现自己的分布式文件系统,然后经过简单...
分类:
其他好文 时间:
2014-05-01 18:34:41
阅读次数:
382
git log 的用法,具体参考 git log --help,以下是个人在使用中遇见的问题,略作统计。
查看单个文件的修改差异(类似于查看单个文件的log,同时将每次log 的详细记录都显示出来):
--full-diff
Without this flag, git log -p ... shows commits that touch the specified paths,...
分类:
其他好文 时间:
2014-05-01 18:33:15
阅读次数:
324
gitlab SSH 失败 解决方案,分享给大家 谢谢!...
分类:
其他好文 时间:
2014-05-01 18:11:29
阅读次数:
400
在开发中,我们发出的基线版本经常会有一些bug需要修复,如果采用本地上库,然后再给用户新的版本,可能会费时费力,而如果给用户我们修改后的代码让用户一行一行合入本地,也显的比较落后,如果用户那边也使用git管理版本的话,我们可以用一个简单的方法来给用户发送修改,那就是使用git打pach包;
1、进入到git 目录下,使用 git diff 差异文件 > bugfix.pach ...
分类:
其他好文 时间:
2014-04-30 22:27:38
阅读次数:
332
一、简介
1、MapReduce 应用广泛的原因之一在于它的易用性。它提供了一个因高度抽象化而变得异常简单的编程模型。
2、从MapReduce 自身的命名特点可以看出,MapReduce 由两个阶段组成:Map 和Reduce 。用户只需编写map ( ) 和reduce( ) 两个函数,即可完成简单的分布式程序的设计。
1)m a p ( ) 函数以key/value 对作为输入,产...
分类:
其他好文 时间:
2014-04-30 22:23:39
阅读次数:
466
Git管理工具对比(GitBash、EGit、SourceTree)GitBash是采用命令行的方式对版本进行管理,功能最为灵活强大,但是由于需要手动输入希望修改的文件名,所以相对繁琐。EGit是Eclipse的Git插件,最为纠结的一个软件,因为开发时直操作很方便,尤其是有svn开发情节的人更热衷于这样,不过EGit中有很多bug和不人性化的东西,让人吐血,所以一句话EGit并不能解决所有Git...
分类:
其他好文 时间:
2014-04-29 13:42:21
阅读次数:
399
分布式消息系统Jafka入门指南作者:chszs,转载需注明。博客主页:http://blog.csdn.net/chszs一、JafkaMQ简介JafkaMQ是一个分布式的发布/订阅消息系统,它是Apache Kafka的Java移植版。2013年11月28日,JafkaMQ发布了1.2.3版。JafkaMQ的特征如下:1)消息持久化到磁盘的算法时间复杂度为O(1),即使是TB级的消息存储,也能...
分类:
其他好文 时间:
2014-04-29 13:32:22
阅读次数:
278
从今天开始,我们来学习JavaEE中一个非常重要的规范:Ejb。既然您已经找到了这篇文章,就说明您就已经对Ejb有个大体上的概念了,之前没看过也没关系,正好通过咱们的共同学习,一起来了解它学习它。
首先,我们来看一些Ejb的总括图:
我们在展开学习之前,我们要弄明白:什么是Ejb?
Ejb也就是Enterprise JavaBeans,它是Java...
分类:
其他好文 时间:
2014-04-29 13:27:21
阅读次数:
405
1、Map-Reduce的逻辑过程
假设我们需要处理一批有关天气的数据,其格式如下:
按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-
0067011990999991950051507+0000+
0043011990999991950051512+0022+
00430119...
分类:
其他好文 时间:
2014-04-29 13:22:20
阅读次数:
309
Spark on yarn执行流程源代码分析
目前的分析主要基于spark0.9.0的cdh5的版本进行分析,
源代码下载地址:https://github.com/cloudera/spark.git
下载方式:gitclone url ./spark
进入spark目录,执行gitcheckout
cdh5-0.9.0_5.0.0
源代码编译
使用sbt编译spa...
分类:
其他好文 时间:
2014-04-29 13:13:22
阅读次数:
446