码迷,mamicode.com
首页 >  
搜索关键字:分布    ( 12925个结果
RDD之七:Spark容错机制
引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式。但是,如果更新粒度太细太 ...
分类:其他好文   时间:2017-01-21 00:37:02    阅读次数:19
RDD之三:RDD创建方式
RDD创建方式 1)从Hadoop文件系统(如HDFS、Hive、HBase)输入创建。2)从父RDD转换得到新RDD。3)通过parallelize或makeRDD将单机数据创建为分布式RDD。 4)基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建。 从集合创建RDD ...
分类:其他好文   时间:2017-01-20 22:01:33    阅读次数:10
[hadoop读书笔记] 第三章 HDFS
P49 当数据集的大小超过一台计算机存储能力时,就有必要对数据集分区(partition)并将分区存储到若干台独立的计算机上。 管理网络中跨多台计算机存储的系统就叫分布式文件系统 Distributed FileSystem 而基于Hadoop构建的DFS就称之为HDFS。 P49-50 HDFS的 ...
分类:其他好文   时间:2017-01-20 17:26:28    阅读次数:8
zookeeper 介绍
ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。 Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在 ...
分类:其他好文   时间:2017-01-20 16:28:24    阅读次数:8
[hive学习翻译]Hive - Introduction
术语“大数据”用于大数据集的集合,包括大量,高速度和各种日益增加的数据。使用传统的数据管理系统,很难处理大数据。因此,Apache Software Foundation引入了一个称为Hadoop的框架来解决大数据管理和处理难题。 HadoopHadoop是一个开放源代码框架,用于在分布式环境中存储 ...
分类:其他好文   时间:2017-01-20 15:50:23    阅读次数:7
架构师养成记--19.netty
Netty初步 为什么选择Netty? 和NIO比较,要实现一个通信要简单得很多,性能很好。分布式消息中间件、storm、Dubble都是使用Netty作为底层通信。 Netty5.0要求jdk1.6以上。 http://netty.io 创建两个Nio线程组,一个事件处理,一个网络读写通信 创建一 ...
分类:Web程序   时间:2017-01-20 14:40:13    阅读次数:11
Java序列化算法
Serialization(序列化)是一种将对象以一连串的字节描述的过程;反序列化deserialization是一种将这些字节重建成一个对象的过程。java序列化API提供一种处理对象序列化的标准机制。 序列化的必要性 java中,一切都是对象,在分布式环境中经常需要将Object从这一端网络或设 ...
分类:编程语言   时间:2017-01-20 12:29:13    阅读次数:9
FastDFS_V5.0分布式存储(介绍、安装与使用)
介绍 架构分析(http://blog.csdn.net/MONKEY_D_MENG/article/details/6038133) FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。 ...
分类:其他好文   时间:2017-01-20 12:12:49    阅读次数:10
stm32 堆和栈(stm32 Heap & Stack)
关于堆和栈已经是程序员的一个月经话题,大部分有是基于os层来聊的。 那么,在赤裸裸的单片机下的堆和栈是什么样的分布呢?以下是网摘: 刚接手STM32时,你只编写一个 int main() { while(1); } BUILD://Program Size: Code=340 RO-data=252 ...
分类:其他好文   时间:2017-01-20 11:10:40    阅读次数:13
Hadoop那些事儿(二)---MapReduce开发环境搭建
上一篇文章介绍了在ubuntu系统中安装Hadoop的伪分布式环境,这篇文章主要为MapReduce开发环境的搭建流程。1.HDFS伪分布式配置使用MapReduce时,如果需要与HDFS建立连接,及...
分类:其他好文   时间:2017-01-20 10:05:50    阅读次数:13
12925条   1 2 3 4 ... 1293 下一页
© 2014 mamicode.com 版权所有 京ICP备13008772号-2
迷上了代码!