1.1  Spark交互式分析
运行Spark脚本前,启动Hadoop的HDFS和YARN。Spark的shell提供
了简单方式去识别API,同样也有一个强大的工具去交互式地分析数据。两种语言有这样的交换能力,分别是Scala 和 Python。下面将演示如何使用Python来分析数据文件。
进入Spark安装主目录,输入下面的命令,python命令行模式将会启动。
./bin/pysp...
                            
                            
                                分类:
其他好文   时间:
2014-07-22 00:29:38   
                                阅读次数:
239
                             
                         
                    
                        
                            
                            
                                把CDH搭建起来了,跑其中的例子程序word-count。在控制台界面一直显示map 0% ?reduce 0% , 通过web页面查看job的状态一直是run,但是map没有执行。感觉是是资源的分配有问题。接着查看了任务的日志。 2014-07-04...
                            
                            
                                分类:
其他好文   时间:
2014-07-21 10:27:54   
                                阅读次数:
822
                             
                         
                    
                        
                            
                            
                                配置建议: 1. ????In MR1, the mapred.tasktracker.map.tasks.maximum and mapred.tasktracker.reduce.tasks.maximum properties dictated how many map and reduce slots each TaskTracker had. ????T...
                            
                            
                                分类:
其他好文   时间:
2014-07-21 10:14:00   
                                阅读次数:
279
                             
                         
                    
                        
                            
                            
                                2014年2月20日,Hadoop 2.3.0版本发布,这是apache 在2014年发布的第一个Hadoop版本,揭开了Hadoop 2014发展的序幕。该版本引入了很多大家期待已久的特性,包括HDFS 的异构层次化存储架构、DataNode Cache,YARN的单点故障解决方案,以及MapRe...
                            
                            
                                分类:
其他好文   时间:
2014-07-19 18:04:01   
                                阅读次数:
239
                             
                         
                    
                        
                            
                            
                                本文介绍Hadoop YARN最近版本中增加的几个非常有用的特性,包括:(1)ResourceManager HA在apache hadoop 2.4或者CDH5.0.0版本之后,增加了ResourceManger HA特性,支持基于Zookeeper的热主备切换,具体配置参数可以参考Clouder...
                            
                            
                                分类:
其他好文   时间:
2014-07-19 00:28:52   
                                阅读次数:
426
                             
                         
                    
                        
                            
                            
                                public class FileSplit extends InputSplit implements Writable {	private Path file;	private long start;	private long length;	private String[] hosts;	pu...
                            
                            
                                分类:
其他好文   时间:
2014-07-16 18:32:45   
                                阅读次数:
236
                             
                         
                    
                        
                            
                            
                                前言: CDH4不带yarn和spark, 因此需要自己搭建spark集群. 这边简单描述spark集群的安装过程, 并讲述spark的standalone模式, 以及对相关的脚本进行简单的分析.spark官网: http://spark.apache.org/downloads.html*)安装....
                            
                            
                                分类:
其他好文   时间:
2014-07-16 16:56:22   
                                阅读次数:
235
                             
                         
                    
                        
                            
                            
                                1、YARN或将成为Hadoop新发力点http://www.csdn.net/article/2013-06-27/2816031-hadoop-yarn2、更快、更强——解析Hadoop新一代MapReduce框架Yarnhttp://www.csdn.net/article/2014-02-1...
                            
                            
                                分类:
其他好文   时间:
2014-07-16 16:45:34   
                                阅读次数:
198
                             
                         
                    
                        
                            
                            
                                本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn 框架相对于原框架的差异及改进;并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 hadoop 程序的方法。读者通过本文中新旧 h...
                            
                            
                                分类:
其他好文   时间:
2014-07-16 15:55:52   
                                阅读次数:
325
                             
                         
                    
                        
                            
                            
                                public List getSplits(JobContext job) throws IOException { long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job)); long ...
                            
                            
                                分类:
其他好文   时间:
2014-07-16 00:19:43   
                                阅读次数:
324