HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。 一、HDFS的优缺点 1.HDFS优点: a.高容错性 .数据保存多个副本 .数据丢的失后自动恢复 b.适合批处理 .移动计算而非移动数据 .数据位置暴露给计算框架 c.适合大数据 ...
分类:
其他好文 时间:
2017-01-17 21:17:02
阅读次数:
316
转自:http://blog.csdn.net/black0707/article/details/12853049 在上篇里,我们主要讨论了,这个系统怎样处理大数据的“读”操作,当然还有一些细节没有讲述。下篇,我们将主要讲述,“写”操作是如何被处理的。我们都知道,如果只有“读”,那几乎是不用做任何 ...
写在前面 Spark是分布式计算领域中继Hadoop之后,又一个比较流行的框架,最近研究了Spark的基本内容,这里稍微总结下,并与Hadoop进行对比。 什么是Spark? Spark是伯克利大学AMP实验室在09年提出的开源的通用分布式计算框架,使用的也是类似Hadoop的计算模型,但是在设计理 ...
分类:
其他好文 时间:
2017-01-01 16:28:54
阅读次数:
867
Torch7 是一个科学计算框架,支持机器学习算法。易用而且提供高效的算法实现,得益于 LuaJIT 和一个底层的 C 实现。 提供: 一个强大的 N 维数组 提供大量索引、切片和置换的程序 通过 LuaJIT 实现神奇的 C 接口 线性算术程序 神经网络以及以能源为基础模型 数值优化程序 一个强大 ...
分类:
其他好文 时间:
2016-12-21 00:08:27
阅读次数:
845
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统,它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序,那么在实际应用中我们如何来操作使用呢?一、HDFS操作方式:1、命令行操作–FsShell:$hdfsdfs2、其他的计算框架-如spark?.
分类:
其他好文 时间:
2016-12-16 23:42:48
阅读次数:
446
以前在Hadoop 1.0中JobTracker主要完成两项功能:资源的管理和作业控制。在集群规模过大的场景下,JobTracker 存在以下不足: 1)JobTracker 单点故障。 2)JobTracker 承受的访问压力大,影响系统的扩展性。 3)不支持MapReduce之外的计算框架,比如 ...
分类:
其他好文 时间:
2016-12-13 06:16:34
阅读次数:
151
一. Spark基础知识 1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结... ...
分类:
其他好文 时间:
2016-12-12 12:01:08
阅读次数:
355
前言Alluxio是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在Alluxio里的文件。把Alluxio是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件,其前身为Tachyon。Alluxio起源于Alluxio公司创始人李浩源读博期间在UCBerkeleyAMPLab实验室的..
分类:
其他好文 时间:
2016-12-09 20:23:41
阅读次数:
285
在现在这个大数据时代,Hadoop和Spark是最潮流的两个词汇,Hadoop是一种分布式计算框架,由Google提出,主要用于搜索领域,解决海量数据的计算问题,Hadoop中的MapReduce包括...
分类:
其他好文 时间:
2016-12-07 18:22:29
阅读次数:
206