码迷,mamicode.com
首页 >  
搜索关键字:spark streaming jobscheduler    ( 7564个结果
java -jar运行spark程序找不到自己写的类的错误解决
spark程序异常解决...
分类:编程语言   时间:2014-11-23 23:24:10    阅读次数:1353
spark程序异常:Exception in thread "main" java.io.IOException: No FileSystem for scheme: hdfs
spark程序异常:Exception in thread "main" java.io.IOException: No FileSystem for scheme: hdfs...
分类:编程语言   时间:2014-11-23 23:16:01    阅读次数:396
Spark之Scala学习
1. Scala集合学习:http://blog.csdn.net/lyrebing/article/details/203622272.scala实现kmeans算法http://www.thinksaas.cn/group/topic/93852/3. Spark之Scala学习网站http:/...
分类:其他好文   时间:2014-11-23 23:09:07    阅读次数:280
理解Spark的RDD
RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。 RDD是只读的,不可变的数据集。RDD也是容错的,假如其中一个RDD坏掉,RDD中有记录之前的依赖关系,依赖关系中记录算...
分类:其他好文   时间:2014-11-23 21:44:22    阅读次数:292
Jackson Gson Json.simple part 2
这篇blog介绍 Jackson 的特点和使用方法Jackson支持三种使用方法流API(streaming api Incremental parsing/generation)JsonParse reads, JsonGenerator writes高效和part 1 json的用法类似,不好用...
分类:Web程序   时间:2014-11-23 17:26:49    阅读次数:212
Hadoop Streaming例子(python)
以前总是用java写一些MapReduce程序现举一个例子使用Python通过Hadoop Streaming来实现Mapreduce。 任务描述: HDFS上有两个目录/a和/b,里面数据均有3列,第一列都是id,第二列是各自的业务类型(这里假设/a对应a,/b对应b),第三列是一个jso...
分类:编程语言   时间:2014-11-23 13:07:40    阅读次数:270
【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第1小节(1)
1,在命令行和Scala?IDE?for?Eclipse中动手体验Scala ? Scala一门基于JVM的面向对象和函数式编程相结合的静态语言,安装和运行Scala首先需要Java虚拟环境,直接到官方网站下载和安装Java即可: http://www.o...
分类:其他好文   时间:2014-11-22 23:24:37    阅读次数:500
spark1.1.0集群安装配置
和分布式文件系统和NoSQL数据库相比而言,spark集群的安装配置还算是比较简单的...
分类:其他好文   时间:2014-11-22 23:09:26    阅读次数:287
【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第1小节:动手体验Scala(1)
1,在命令行和ScalaIDEforEclipse中动手体验ScalaScala一门基于JVM的面向对象和函数式编程相结合的静态语言,安装和运行Scala首先需要Java虚拟环境,直接到官方网站下载和安装Java即可:http://www.oracle.com/technetwork/java/ja...
分类:其他好文   时间:2014-11-22 23:02:17    阅读次数:345
Spark和RDD模型研究
1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景:Ø  迭代式算法:迭代式机器学习、图算法,包...
分类:其他好文   时间:2014-11-22 16:08:17    阅读次数:392
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!