英文学习篇 http://spark.apache.org/docs/latest/sql-programming-guide.html 可以对照官方的API进行对照 http://spark.apache.org/docs/latest/api/scala/index.html 中文学习篇 http://demo.netfoucs.com/boo...
分类:
数据库 时间:
2015-01-07 15:14:36
阅读次数:
155
原文来自于:http://bbs.csdn.net/topics/3909611422月份精华资源来了~首先推荐,2014中国大数据技术大会33位核心专家演讲,会议地址:http://bdtc2014.hadooper.cn讲师PDF下载专辑地址戴金权:基于Spark软件栈的下一代大数据分析介文清:...
分类:
其他好文 时间:
2015-01-07 10:42:10
阅读次数:
207
几天前,ThoughtWorks China 咨询师团队召开了一次团结的大会,成功的大会。为期三天的会议,分享的内容并不亚于坊间举行的技术大会,包含了敏捷组织转型、C++重构、敏捷测试体系、持续交付整体解决方案、Spark 执行模型、机器学习、Scala 代码操练。课题五花八门,争辩激烈精彩。 .....
分类:
其他好文 时间:
2015-01-06 13:46:01
阅读次数:
246
辨别 “百度权重”作弊的手法 程序员在做PHP项目的同时,也要有辨别百度权重的作弊手法,所谓的“百度权重”,指的是爱站、站长工具等网站推出的针对网站关键词排名预计给网站带来流量而划分的评估数据。“百度权重”并不是像谷歌的PageRank那样的对网站的综合评级的算法,而只是针对关键词排名方面给网站带....
分类:
其他好文 时间:
2015-01-06 11:35:15
阅读次数:
256
1、什么是Spark? Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MadReduce所具有的优点;但不同于MapReduce的是Job中间输出的结果可以....
分类:
其他好文 时间:
2015-01-05 18:11:16
阅读次数:
323
RDD(Resilient Distributed DataSet)弹性分布式数据集,是Spark的核心数据结构。
DSM(Distributed Shared Memory)分布式共享内存,它是一种通用的内存数据抽象。在DSM中,应用可以向全局地址空间的任意位置进行读写操作。
RDD与DSM主要区别在于,不仅可以通过批量转换创建(即“写”)RDD,还可以对任意内存位置对写。RDD限制应用执行...
分类:
其他好文 时间:
2015-01-05 13:09:07
阅读次数:
188
在Spark 1.2.0中,Spark Core的一个重要的升级就是将默认的Hash Based Shuffle换成了Sort Based Shuffle,即spark.shuffle.manager 从hash换成了sort,对应的实现类分别是org.apache.spark.shuffle.hash.HashShuffleManager和org.apache.spark.shuffle.sort.SortShuffleManager。
那么Sort BasedShuffle“取代”Hash BasedS...
分类:
其他好文 时间:
2015-01-05 08:17:15
阅读次数:
210
从一台服务器负责内容到另一台服务器: scp jdk-6u37-linux-x64.bin spark@10.126.45.56:/home/spark/opt
tar压缩和解压文件: 压缩 tar -cvf java.tar.gz java/ 解压: tar -xvf java.tar.gz
配置java环境变量:
去各种地方下载 jdk程序包 :jdk-6u3...
分类:
系统相关 时间:
2015-01-04 15:20:05
阅读次数:
250