码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
Spark调研笔记第3篇 - Spark集群对应用的调度策略简介
Spark集群的调度分应用间调度和应用内调度两种情况,下文分别进行说明。 1. 应用间调度 1) 调度策略1: 资源静态分区 资源静态分区是指整个集群的资源被预先划分为多个partitions,资源分配时的最小粒度是一个静态的partition。根据应用对资源的申请需求为其分配静态的partition(s)是Spark支持的最简单的调度策略。 我们已经知道,不同的应用有各自的Spark C...
分类:其他好文   时间:2015-06-08 15:07:22    阅读次数:350
[pySpark][笔记]spark tutorial from spark official site在ipython notebook 下学习pySpark
+ Spark Tutorial: Learning Apache SparkThis tutorial will teach you how to use Apache Spark, a framework for large-scale data processing, within a notebook. Many traditional frameworks were designed to...
分类:编程语言   时间:2015-06-08 09:48:05    阅读次数:1200
【code】flex_进度条样式
一共4个文件: JinDuTiaoItem.mxml: <s:GridItemRenderer xmlns:fx="http://ns.adobe.com/mxml/2009" xmlns:s="library://ns.adobe.com/flex/spark" xmlns:mx="library://ns.adobe.com/flex/mx" clip...
分类:其他好文   时间:2015-06-08 09:47:11    阅读次数:122
Eclipse下安装Scala2.10.4插件
Spark编译的目前都是基于Scala2.10.4的,安装Scala插件版本也是选择2.10.4,否则eclipse会报spark的jar包和scala版本不兼容的错误.ScalaIDEforEclipse不同的Eclipse版本对应插件也的不同下载地址:http://scala-ide.org/download/prev-stable.html Eclipse3.8-4.3(JunoandKeple..
分类:系统相关   时间:2015-06-07 21:50:00    阅读次数:286
Scala2.10.4在CentOS7中的安装与配置
随着基于内存的大数据计算框架——spark的火爆流行,用于编写spark内核的Scala语言也随之流行开来。由于其编写代码的简洁性,受到了越来越多程序员的喜爱。我今天给大家展示的时Scala2.10.4在CentOS 7下的安装与配置:一、Scala下载我们需要在Scala官网下载Scala2.10...
分类:其他好文   时间:2015-06-05 20:57:52    阅读次数:131
Spark stdout日志乱码
采用Apache版本spark1.2.1时没有出现乱码,但spark-1.1.0-cdh5.2.1版本中,在分布处理的map函数里对数据进行打印输出进行debug时valrs=rdd.filter(e=>{val(lable,text)=(e._2(2),e._2(3));m.filterItem(lable,text)}) .reduceByKey((x,y)=>m.merge(x,y)) .map{case(x,y)=..
分类:其他好文   时间:2015-06-05 17:58:49    阅读次数:181
Spark调研笔记第1篇 - Spark简介
在公司线上项目中引入Spark已经将近1年时间了,从效果来看,Spark确实是能提高生产力的优秀分布式计算平台。 从本篇笔记开始,会把之前调研Spark时的调研报告分享出来(限于篇幅,会分成几篇文章),以便帮助刚接触Spark的朋友们尽快入门。 下面开始正文。 1. 项目背景 Spark项目于2009年诞生于UC Berkeley AMP Lab并于2010年正式提交Apache Soft...
分类:其他好文   时间:2015-06-05 17:34:11    阅读次数:126
杭州高级.NET程序员常见面试题
大数据处理大数据处理有哪些方案?说明:hadoop (hadoop权威指南中文第二版.pdf)spark有没有用过缓存?服务端的高速缓存有没有用过?如何解决数据并发问题?说明:使用同步机制使用临界区管理多线程的问题sql搜索时,如何过滤?设计模式什么是工厂模式?一般应用在哪些场景?什么是单例模式?....
分类:Web程序   时间:2015-06-05 13:56:00    阅读次数:131
spark中各种连接操作以及实用方法
val a = sc.parallelize(Array(("123",4.0),("456",9.0),("789",9.0)) val b = sc.parallelize(Array(("123",8.0),("789",10))) val c = a.join(b) c.foreach(println) /* (123,(4.0,8.0)) ...
分类:其他好文   时间:2015-06-04 22:48:56    阅读次数:196
看懂大数据的技术生态圈 Hadoop,hive,spark(转载)
先给出原文链接: 原文链接大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。传统的文件系统是单机的...
分类:其他好文   时间:2015-06-04 11:50:20    阅读次数:167
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!