spark对内存有一定的要求,内存不够会因为gc而oom。
1、默认情况下,一个worker的内存0.6用于cache,0.4用于task,可以通过设置该值提高每个worker的cache大小
spark.storage.memoryFraction   0.8
2、设置并行task数,提高reducer效率
spark.default.parallelism     4
这个在1....
                            
                            
                                分类:
其他好文   时间:
2014-09-03 21:21:47   
                                阅读次数:
338
                             
                    
                        
                            
                            
                                默认是1.0.4,需设置指定Hadoop版本:
在${SPARK_HOME}/pom.xml中的yarn改为
      yarn
      
        2
        2.2.0
        2.2.0
        2.5.0
      
      
        yarn
      
    
导入时候选yarn...
                            
                            
                                分类:
其他好文   时间:
2014-09-03 21:19:57   
                                阅读次数:
330
                             
                    
                        
                            
                            
                                本文讲述如何使用datastax提供的spark-cassandra-connector来连接cassandra进行数据读取和更新。
                            
                            
                                分类:
其他好文   时间:
2014-09-02 22:35:15   
                                阅读次数:
343
                             
                    
                        
                            
                            
                                首先修改Master的core-site.xml文件,此时的文件内容是:我们把“localhost”域名修改为“Master”:同样的操作分别打开Slave1和Slave2节点core-site.xml,把“localhost”域名修改为“Master”。其次修改Master、Slave1、Slav...
                            
                            
                                分类:
其他好文   时间:
2014-09-02 13:48:14   
                                阅读次数:
131
                             
                    
                        
                            
                            
                                首先修改Master的core-site.xml文件,此时的文件内容是: 我们把“localhost”域名修改为“Master”: 同样的操作分别打开Slave1和Slave2节点core-site.xml,把“localhost”域名修改为“Master”。 其次修改Maste...
                            
                            
                                分类:
其他好文   时间:
2014-09-02 12:41:35   
                                阅读次数:
225
                             
                    
                        
                            
                            
                                进入第二台机器,看一下这台主机的IP地址: 可以看出这台主机的IP地址是“192.168.184.131”. 我们在/etc/hostname中把主机名称修改为“Slave1”: 保存退出。 为了使修改生效,我们重新启动该机器,此时查看主机名...
                            
                            
                                分类:
其他好文   时间:
2014-09-01 10:56:13   
                                阅读次数:
194
                             
                    
                        
                            
                            
                                进入第二台机器,看一下这台主机的IP地址:可以看出这台主机的IP地址是“192.168.184.131”.我们在/etc/hostname中把主机名称修改为“Slave1”:保存退出。为了使修改生效,我们重新启动该机器,此时查看主机名:表明我们的修改生效了。进入第三台机器,看一下这台主机的IP地址:...
                            
                            
                                分类:
其他好文   时间:
2014-09-01 10:42:12   
                                阅读次数:
157
                             
                    
                        
                            
                            
                                Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。本节描述了Spark Streaming作业的执行流程。图1 Spark Streaming作业的执行流程具体流程:客户端提交作业后启...
                            
                            
                                分类:
其他好文   时间:
2014-08-30 13:52:19   
                                阅读次数:
292
                             
                    
                        
                            
                            
                                Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈 ????? 大数据的概念与应用,正随着智能手机、平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题。图计算正在被广泛地应用于社交...
                            
                            
                                分类:
其他好文   时间:
2014-08-29 18:37:08   
                                阅读次数:
270
                             
                    
                        
                            
                            
                                Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈 大数据的概念与应用,正随着智能手机、平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题。图计算正在被广泛地应用于社交网络、电子商务,地图等领域。对于图计算的两个核心问题:图存储模式和图计算模型,Spark Graph...
                            
                            
                                分类:
其他好文   时间:
2014-08-29 17:55:48   
                                阅读次数:
338