码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
Spark 读入文件后如何标记行号
Spark读入本地文件后,成为MapPartitionsRDD,可以使用zipWithIndex,转换成ZippedWithIndexRDD: 查看结果,每一行变为二元组“(内容,索引)”,索引从0开始: (# Apache Spark,0) ("",1) (Spark is a fast and ...
分类:其他好文   时间:2015-07-09 16:01:10    阅读次数:187
Scala集合笔记
java,scala,spark...
分类:其他好文   时间:2015-07-09 14:41:48    阅读次数:147
Spark RDD在saveAsTextFile时直接保存成一个txt文件
在该语句之前加上repartition(1),即写作以下形式:rdd.repartition(1).saveAsTextFile("out.txt")即,之前每个partition保存成一个txt文件,现repartition成一个分区,然后再保存。 注意(未验证):这个操作对于大文件来说,repa...
分类:其他好文   时间:2015-07-09 11:10:20    阅读次数:306
Scala深入浅出实战经典---001-Scala开发环境搭建和HelloWorld解析
001-Scala开发环境搭建和HelloWorld解析Scala函数式编程和面向对象结合的语言函数式编程擅长数值计算面向对象擅长大型工程和项目的组织以及团队的分工协作Scala会是下一个伟大的语言吗?Spark是用Scala语言编写的Hadoop是用Java语言编写的少动一根手指Scala开发环境...
分类:其他好文   时间:2015-07-09 11:09:20    阅读次数:102
spark伪分布式安装与测试
1、下载scala2.11.5版本,下载地址为:http://www.scala-lang.org/download/2.11.5.html 2、安装和配置scala: 第一步:上传scala安装包 并解压 第二步 配置SCALA_HOME环境变量到bash_profile 第三步 source 使配...
分类:其他好文   时间:2015-07-08 23:04:47    阅读次数:585
spark1.4 Windows local调试环境搭建总结
spark1.4 Windows local调试环境搭建总结 1.scala版本 scala-2.10.4 官方推荐 scala-2.11.7【不推荐,非sbt项目、需要后加载】 2.spark版本 spark-1.4.0-bin-hadoop2.6.tgz 3.hadoop 3.1版本 hadoop-2.6.0.tar.g...
分类:Windows程序   时间:2015-07-08 16:44:52    阅读次数:233
【Spark】Spark基本概念
Spark专用名词 RDD —- resillient distributed dataset 弹性分布式数据集 Operation —- 作用于RDD的各种操作分为transformation和action Job —- 作业,一个JOB包含多个RDD及作用于相应RDD上的各种operation Stage —- 一个作业分为多个阶段 Partition —- 数据分区, 一个RDD中的数据可以分...
分类:其他好文   时间:2015-07-08 16:41:59    阅读次数:138
【Spark】弹性分布式数据集RDD概述
弹性分布数据集RDDRDD(Resilient Distributed Dataset)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作之后的...
分类:其他好文   时间:2015-07-08 16:40:37    阅读次数:936
【Spark】Spark应用执行机制
Spark应用概念Spark应用(Application)是用户提交的应用程序。执行模式又Local、Standalone、YARN、Mesos。根据Spark Application的Driver Program是否在集群中运行,Spark应用的运行方式又可以分为Cluster模式和Client模式。 下面是Spark应用涉及的一些基本概念: Application:Spark 的应用...
分类:其他好文   时间:2015-07-08 16:39:37    阅读次数:178
spark on yarn的cpu使用
在yarn-site.xml中,可以配置virutal core的个数,请注意不是physical core的个数,相关配置如下:   yarn.nodemanager.resource.cpu-vcores   30   NodeManager总的可用虚拟CPU个数 virutal core的概念是将所有physical cpu组成8个可调度的队列,linux使得有任务的...
分类:其他好文   时间:2015-07-08 13:03:47    阅读次数:324
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!