江湖传说永流传:谷歌技术有"三宝",GFS、MapReduce和大表(BigTable)!谷歌在03到06年间连续发表了三篇非常有影响力的文章,各自是03年SOSP的GFS,04年OSDI的MapReduce,和06年OSDI的BigTable。SOSP和OSDI都是操作系统领域的顶级会议,在计算机...
分类:
其他好文 时间:
2014-07-09 21:36:17
阅读次数:
187
英文原文:cloudera,编译:ImportNew–Royce WongHadoop从这里开始!和我一起学习下使用Hadoop的基本知识,下文将以Hadoop Tutorial为主体带大家走一遍如何使用Hadoop分析数据!这个专题将描述用户在使用Hadoop MapReduce(下文缩写成MR)...
分类:
其他好文 时间:
2014-07-08 11:38:11
阅读次数:
315
欢迎转载,转载请注明出处,徽沪一郎。Spark Streaming能够对流数据进行近乎实时的速度进行数据处理。采用了不同于一般的流式数据处理模型,该模型使得Spark Streaming有非常高的处理速度,与storm相比拥有更高的吞能力。本篇简要分析Spark Streaming的处理模型,Spa...
分类:
其他好文 时间:
2014-07-07 14:44:43
阅读次数:
213
欢迎转载,转载请注明出处,徽沪一郎,谢谢。在流数据的处理过程中,为了保证处理结果的可信度(不能多算,也不能漏算),需要做到对所有的输入数据有且仅有一次处理。在Spark Streaming的处理机制中,不能多算,比较容易理解。那么它又是如何作到即使数据处理结点被重启,在重启之后这些数据也会被再次处理...
分类:
其他好文 时间:
2014-07-07 14:36:48
阅读次数:
275
欢迎转载,转载请注明出处,徽沪一郎。楔子Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块...
分类:
其他好文 时间:
2014-07-07 14:17:47
阅读次数:
295
第一步:编译java文件 javac -classpath hadoop-core*.jar:lib/commons-cli-1.2.jar -d playground/classes/ playground/src/WordCount.java第二步:生成jar包 jar -cvf p...
分类:
其他好文 时间:
2014-07-06 18:41:56
阅读次数:
199
问题
最近在学习Hadoop(2.2.0),打算写一个MapReduce的小程序在Ubuntu 64位的环境下测试一把,一切环境配置完毕后,执行的过程中,控制台输出下面的内容:
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java clas...
分类:
其他好文 时间:
2014-07-06 00:46:04
阅读次数:
434
gulp是一个nodejs的streaming构建工具,所谓的streaming大致意思就是把构建流程想成一个个链接的管道(pipe)。
为什么要这样做呢?
要解释原因,就不得不提到unix。unix本身只提供了数量相对较少的命令,但是你可以命令的组合完成很强大的功能。命令和命令之间的衔接通常就用的是pipe。
类似,使用gulp,你仅仅只需要记住5个命令。这5个命令就是gulp提供给我们的一套streaming构建的架子,也就相当于提供了unix中的pipe功能。至于说pipe中每个命令的功能,则可以使...
分类:
Web程序 时间:
2014-07-03 18:29:11
阅读次数:
277
实验目的:
让Nginx支持flv和mp4格式文件,支持RTMP协议的直播和点播;
同时打开RTMP的HLS功能
?资料:
HTTP Live Streaming(缩写是 HLS)是一个由苹果公司提出的基于HTTP的流媒体网络传输协议。
HLS只请求基本的HTTP报文,与实时传输协议(RTP)不同,HLS可以穿过任何允许HTTP数据通过的防火墙或者代理服务器。
它也很容易使用内容分...
分类:
其他好文 时间:
2014-07-02 16:37:24
阅读次数:
170
2004年Google发表了一篇非常具有影响力的论文向全世界介绍了MapReduce框架,该框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。时至今日,MapReduce已经成为并行分布式计算领域的一个高度流行的基础设施和编程模型,它是Apache Hadoop的基...
分类:
其他好文 时间:
2014-07-01 00:21:41
阅读次数:
320