码迷,mamicode.com
首页 >  
搜索关键字:分布式计算框架    ( 113个结果
第四章 YARN 第一节 YARN应用运行分析
Apache YARN(Yet Another Resource Negotiator)是一个HADOOP集群资源管理系统。YARN在HADOOP2 中引入,但是它足够通用,也支持其它的分布式计算程序。         YARN提供了用于请求和使用集群资源的API,但是这些API不是直接由用户代码使用的。用户写更高级的由 分布式计算框架提供的API,这些框架是建立在YARN之上的,对用户隐藏...
分类:其他好文   时间:2016-04-22 20:52:22    阅读次数:288
Hadoop 2.x从零基础到挑战百万年薪第一季
鉴于目前大数据Hadoop 2.x被企业广泛使用,在实际的企业项目中需要更加深入的灵活运用,并且Hadoop 2.x是大数据平台处理 的框架的基石,尤其在海量数据的存储HDFS、分布式资源管理和任务调度YARN及分布式计算框架MapReduce。然而当前众多书籍和 视频教程资料中,没有一套完整的、深 ...
分类:其他好文   时间:2016-04-12 07:09:48    阅读次数:373
Mahout学习路线图-张丹老师
前言 Mahout是Hadoop家族中与众不同的一个成员,是基于一个Hadoop的机器学习和数据挖掘的分布式计算框架。Mahout是一个跨学科产品,同时也是我认为Hadoop家族中,最有竞争力,最难掌握,最值得学习的一个项目之一。 Mahout为数据分析人员,解决了大数据的门槛;为算法工程师,提供基 ...
分类:其他好文   时间:2016-04-09 21:47:24    阅读次数:254
spark python java.lang.IllegalStateException: Did not find registered driver with class org.apache.spark.sql.execution.datasources.jdbc.DriverWrapper
最近在学习spark分布式计算框架,其中遇到这样的问题 提交的命令是 bin/spark-submit --jars lib/mysql-connector-java-5.1.38-bin.jar --master spark://Wechat-6:7077 examples/hsbhadoop/d... ...
分类:移动开发   时间:2016-04-09 19:04:42    阅读次数:502
Hadoop(一):概述
一、Hadoop是什么? Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop框架最核心的设计包含两个方面,一是分布式文件系统(Hadoop Distributed File System),简称HDFS;二是分布式计算框架MapReduce。简单来说,HDFS为海量的数据
分类:其他好文   时间:2016-03-11 13:46:40    阅读次数:186
拉开大变革序幕(下):分布式计算框架与大数据
不可变基础设施如何更好地使用容器技术实现不可变基础设施TachyonTachyon简介南京大学PASA大数据实验室SPARK/TACHYON:基于内存的分布式存储系统Spark on Yarn 搭建spark on yarn集群全过程 —— 可与 3 形成参考 Spark on Yarn Spark On YARN 集群安装部署 —— 推荐 1) 配置Hadoop Yarn集群时出现的问题及修复:在...
分类:其他好文   时间:2016-01-20 13:23:01    阅读次数:180
如何在spark中读写cassandra数据 ---- 分布式计算框架spark学习之六
由于预处理的数据都存储在cassandra里面,所以想要用spark进行数据分析的话,需要读取cassandra数据,并把分析结果也一并存回到cassandra;因此需要研究一下spark如何读写cassandra。话说这个单词敲起来好累,说是spark,其实就是看你开发语言是否有对应的driver...
分类:其他好文   时间:2015-11-26 14:51:23    阅读次数:238
大数据架构之:Spark
Spark是UC Berkeley AMP 实验室基于map reduce算法实现的分布式计算框架,输出和结果保存在内存中,不需要频繁读写HDFS,数据处理效率更高Spark适用于近线或准实时、数据挖掘与机器学习应用场景Spark和HadoopSpark是一个针对超大数据集合的低延迟的集群分布式计算...
分类:其他好文   时间:2015-11-09 20:43:20    阅读次数:520
单源最短路径算法的MapReduce实现(Metis版本)
Mapreduce 是谷歌提出的一个分布式计算框架, 利用该框架, 能够让用户方便地利用多机并行处理数据。 该框架有两个重要的函数: Map 和 Reduce, Map 函数对整个输入数据进行处理, 按照用户定义的处理方式, 从输入的数据中产生中间键值对( key, value)。Reduce 函数对这些键值对进行处理, 相同 key 的键值...
分类:编程语言   时间:2015-08-25 21:44:34    阅读次数:227
Spark机器学习——互动出版网
这篇是计算机类的优质预售推荐>>>>《Spark机器学习》 当机器学习遇上最流行的并行计算框架Spark...... 编辑推荐 Apache Spark是一个分布式计算框架,专为满足低延迟任务和内存数据存储的需求而优化。现有并行计算框架中,鲜有能兼顾速度、可扩展性、内存处理以及容错性,同时还能简化编程,提供灵活、表达力丰富的强大API的,Apache Spark就是这...
分类:其他好文   时间:2015-08-18 10:17:25    阅读次数:205
113条   上一页 1 ... 7 8 9 10 11 12 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!