码迷,mamicode.com
首页 >  
搜索关键字:SPARK RDD    ( 7287个结果
(转)Spark安装与学习
摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器,详情请猛击http://www.spark-project.org/ Created 2012-05-09 Modified 2012-0...
分类:其他好文   时间:2015-01-29 21:05:36    阅读次数:239
Spark 单机 Demo.
安装好Spark 后,官方自带了一些demo, 路径在 ?Spark根目录/examples/src/main/python/ 里面有些例子,例如统计字数的 wordcount.py import?sys from?operator?import?add from?pyspark?import?SparkCo...
分类:其他好文   时间:2015-01-29 17:53:34    阅读次数:224
Spark API编程动手实战-03-以在Spark 1.2版本实现对Job输出结果进行排序
从前一篇文章中的wordcount的输出结果可以看出来结果是未经排序的,如何对spark的输出结果进行排序呢? 先对reduceByKey的结果进行key,value位置置换(数字,字符),然后再进行数字排序,再将key,value位置置换...
分类:编程语言   时间:2015-01-29 14:48:39    阅读次数:142
Spark API编程动手实战-06-对搜狗日志文件深入实战操作
本节中所用到的内容是来自搜狗实验室,网址为:http://www.sogou.com/labs/dl/q.html 我们使用的是迷你版本的tar.gz格式的文件,其大小为87K,下载后如下所示: 上传到服务器后,解压并查看: 查看Sogou文件内容: 该文件的格式如下所示: 访问时间 \t 用户ID \t 查询词 \t 该URL在返...
分类:Windows程序   时间:2015-01-29 14:40:30    阅读次数:192
一天一段scala代码(二)
一天一段scala代码(二)        为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。 package examples import scala.util.control.Breaks._ object Example2 { def main(args: Array[Stri...
分类:其他好文   时间:2015-01-28 21:27:38    阅读次数:154
Spark的python克隆
Introduction  DPark是豆瓣开发的基于Mesos的开源分布式计算框架,是spark的python版克隆,Davids的作品,Beandb作者。是豆瓣刚开源的集群计算框架,类似于MapReduce,但是比其更灵活,可以用Python非常方便地进行分布式计算,并且提供了更多的功能以便更好的进行迭代式计算。DPark的计算模型是基于两个中心思想的:对分布式数据集的并行计算以及一些有...
分类:编程语言   时间:2015-01-28 19:47:43    阅读次数:281
Spark API编程动手实战-02-以集群模式进行Spark API实战textFile、cach
操作HDFS:先要保证HDFS启动了: 启动spark集群: 以spark-shell运行在spark集群上: 查看下之前上传到HDFS上的”LICENSE.txt“文件: 用spark读取这个文件: 使用count统计该文件的行数: ?我们可以看到count 耗...
分类:Windows程序   时间:2015-01-28 14:50:25    阅读次数:264
使用Spark计算PV、UV
日志字段格式: id,ip,url,ref,cookie,time_stamp 把日志文件放到HDFS。仅取了1000行。 hadoop fs -put 1000_log hdfs://localhost:9000/user/root/input 计算PV。 scala> val textFile = sc.textFile("hdfs://localhost:9000/user/ro...
分类:其他好文   时间:2015-01-28 14:41:15    阅读次数:421
【Spark01】SparkSubmit兼谈Spark集群管理和部署模式
关于Cluster Manager和Deploy Mode的组合在SparkSubmit.scala的createLaunchEnv中有比较详细的逻辑。Cluster Manager基本上有Standalone,YARN和Mesos三种情况,说明Cluster Manager用来指明集群的资源管理器...
分类:其他好文   时间:2015-01-28 06:09:55    阅读次数:1978
一天一段scala代码(-)
一天一段scala代码(-)        为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。 package examples object Example1 { def main(args: Array[String]) { //val用于声明可变变量 var coun...
分类:其他好文   时间:2015-01-27 21:52:29    阅读次数:210
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!