决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂【第3期互动问答分享】Q1:groupbykey是排好序的吗?分组排序怎么实现?groupByKey在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[V])对的数据集,所以是没有排序的;要想分组排序,首先要使用groupByKey完成分..
                            
                            
                                分类:
其他好文   时间:
2014-09-10 14:19:51   
                                阅读次数:
259
                             
                    
                        
                            
                            
                                启动并查看集群的状况 第一步:启动Hadoop集群,这个在第二讲中讲解的非常细致,在此不再赘述: 启动之后在Master这台机器上使用jps命令,可以看到如下进程信息: 在Slave1 和Slave2上使用jps会看到如下进程信息:...
                            
                            
                                分类:
其他好文   时间:
2014-09-10 11:00:41   
                                阅读次数:
345
                             
                    
                        
                            
                            
                                启动并查看集群的状况
第一步:启动Hadoop集群,这个在第二讲中讲解的非常细致,在此不再赘述:
启动之后在Master这台机器上使用jps命令,可以看到如下进程信息:
在Slave1 和Slave2上使用jps会看到如下进程信息:
第二步:启动Spark集群
 在Hadoop集群成功启动的基础上,启动Spark集群需要使用Spark的sbin...
                            
                            
                                分类:
其他好文   时间:
2014-09-10 10:55:20   
                                阅读次数:
225
                             
                    
                        
                            
                            
                                前面介绍了sparkSQL的运行架构,后面将介绍sparkSQL的使用。在介绍sparkSQL的使用之前,我们需要搭建一个sparkSQL的测试环境。本次测试环境涉及到hadoop之HDFS、hive、spark以及相关的数据文件,相关的信息如下:
hadoop版本为2.2.0hive版本为0.13spark版本为1.1.0-rc3MySQL版本为5.6.12测试数据下载地点:http:...
                            
                            
                                分类:
数据库   时间:
2014-09-10 09:39:40   
                                阅读次数:
378
                             
                    
                        
                            
                            
                                sparkSQL1.1对数据的查询分成了2个分支:sqlContext 和 hiveContext。
      在sqlContext中,sparkSQL可以使用SQL-92语法对定义的表进行查询,表的源数据可以来自:
RDDparquet文件json文件
      在hiveContext中,sparkSQL可以使用HQL语法,对hive数据进行查询,sparkSQ...
                            
                            
                                分类:
数据库   时间:
2014-09-10 09:38:00   
                                阅读次数:
406
                             
                    
                        
                            
                            
                                Today I attended a meeting of reviewing code, and I learned a lot from it. In the discuss, we found out a problem that our program didn't have a good ...
                            
                            
                                分类:
其他好文   时间:
2014-09-09 22:49:59   
                                阅读次数:
220
                             
                    
                        
                            
                            
                                安装SparkMaster、Slave1、Slave2这三台机器上均需要安装Spark。首先在Master上安装Spark,具体步骤如下:第一步:把Master上的Spark解压:我们直接解压到当前目录下:此时,我们创建Spark的目录“/usr/local/spark”:把解压后的“spark-1...
                            
                            
                                分类:
其他好文   时间:
2014-09-09 15:36:49   
                                阅读次数:
137
                             
                    
                        
                            
                            
                                安装Spark ? Master、Slave1、Slave2这三台机器上均需要安装Spark。 首先在Master上安装Spark,具体步骤如下: 第一步:把Master上的Spark解压: 我们直接解压到当前目录下: 此时,我们创建Spark的目录“/usr/...
                            
                            
                                分类:
其他好文   时间:
2014-09-09 13:52:59   
                                阅读次数:
167
                             
                    
                        
                            
                            
                                最近学习hadoop,很多算法需要利用到矩阵计算,,例如:协同过滤,pagerank等等所以练习一下,	publicstaticvoidm1(){
		//根据矩阵乘法的规则,a[4*3]*b[3,2],
		//将会得到一个r[4*2]的新矩阵
		//r[i][j]=a[i][0]*b[0][j]+
		//a[i][1]*b[1][j]+
		//a[i][2]*b[2][j]
		
		i..
                            
                            
                                分类:
编程语言   时间:
2014-09-08 10:59:07   
                                阅读次数:
261
                             
                    
                        
                            
                            
                                主要包含使用maven和sbt编译spark源码。还有配置idea等。...
                            
                            
                                分类:
其他好文   时间:
2014-09-07 01:07:54   
                                阅读次数:
202