码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
Machine Learning With Spark学习笔记(提取10万电影数据特征)
注:原文中的代码是在spark-shell中编写执行的,本人的是在eclipse中编写执行,所以结果输出形式可能会与这本书中的不太一样。首先将用户数据u.data读入SparkContext中,然后输出第一条数据看看效果,代码如下:val sc = new SparkContext("local", "ExtractFeatures") val rawData = sc.textFile("F:\\...
分类:系统相关   时间:2015-08-14 13:54:09    阅读次数:208
hadoop(2.5,2.6) HDFS偶发性心跳异常以及大量DataXceiver线程被Blocked故障处理分享
一、概要公司近期Storm清洗程序那边反应HDFS会出现偶发性的异常导致数据写不进HDFS,另外一些Spark作业在大规模往HDFS灌数据时客户端会出现各种“alldatanodebad..”以及服务端出现各种timeout,值得注意的是出现这样的问题是各个datanode节点的负载并不高!二、故障分析首先,..
分类:编程语言   时间:2015-08-13 20:20:37    阅读次数:191
[转载] Spark:大数据的“电光石火”
转载自http://www.csdn.net/article/2013-07-08/2816149Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述Spark的设计思想。Spark如其名,展现了大数据不常见的“电光石火”。具体特...
分类:其他好文   时间:2015-08-13 20:07:56    阅读次数:319
[转载] 从Hadoop到Spark的架构实践
转载自http://www.csdn.net/article/2015-06-08/2824889http://www.zhihu.com/question/26568496当下,Spark已经在国内得到了广泛的认可和支持:2014年,Spark Summit China在北京召开,场面火爆;同年,...
分类:其他好文   时间:2015-08-13 20:04:52    阅读次数:141
Tachyon在Spark中的作用(Tachyon: Reliable, Memory Speed Storage for Cluster Computing Frameworks 论文阅读翻译)
摘要:         Tachyon是一种分布式文件系统,可以借助集群计算框架使得数据以内存的速度进行共享。当今的缓存技术优化了read过程,但是,write过程因为需要容错机制,就需要通过网络或者是磁盘进行复制操作。Tachyon通过将“血统”技术引入到存储层进而消除了这个瓶颈。创建一个长期的以“血统机制”为基础的存储系统的关键挑战是失败情况发生的时候及时地进行数据恢复。Tachyon通...
分类:其他好文   时间:2015-08-13 18:10:01    阅读次数:203
Spark源码阅读笔记之Broadcast(一)
Spark源码阅读笔记之Broadcast:Spark会序列化在各个任务上使用到的变量,然后传递到Executor中,由于Executor中得到的只是变量的拷贝,因此对变量的改变只在该Executor有效。序列化后的任务的大小是有限制的(由spark.akka.frameSize决定,值为其减去200K,默认为10M-200K),超出该限制的任务会被抛弃。因此,对于需要共享比较大的数据时,需要使用Broadcast。...
分类:其他好文   时间:2015-08-13 15:59:17    阅读次数:600
Spark入门实战系列--3.Spark编程模型(上)--概念及SparkShell实战
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取1 Spark编程模型 1.1 术语定义 应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor; 驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用...
分类:系统相关   时间:2015-08-13 10:07:18    阅读次数:162
spark加载hadoop本地库的时候出现不能加载的情况要怎么解决呢?
hadoop shell运行的时候不会报这个错误,因为我已经重新在64位机上编译了源文件,并把so文件复制到hadoop的native目录下,而且环境变量也设置正确了,所以hadoop本身没有问题。 但在启动spark相关的shell时就会报这个问题。 经过查找,发现知乎上有人问了这个问题,我尝试照...
分类:其他好文   时间:2015-08-13 08:52:14    阅读次数:148
Spark 1.4.1 安装配置
各节点执行如下操作(或在一个节点上操作完后 scp 到其它节点): 1、 解压spark安装程序到程序目录/bigdata/soft/spark-1.4.1,约定此目录为$SPARK_HOME ????????tar –zxvf spark-1.4-bin-hadoop2.6.ta...
分类:其他好文   时间:2015-08-12 19:58:17    阅读次数:750
Spark RDD Operations
以上是对应的RDD的各中操作,相对于MaoReduce只有map、reduce两种操作,Spark针对RDD的操作则比较多***********************************************map(func)返回一个新的分布式数据集,由每个原元素经过func函数转换后组成*...
分类:其他好文   时间:2015-08-12 18:33:56    阅读次数:175
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!