如果你对项目管理、系统架构有兴趣,请加微信订阅号“softjg”,加入这个PM、架构师的大家庭 
随着BIG 
DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间...
                            
                            
                                分类:
其他好文   时间:
2014-05-12 17:06:14   
                                阅读次数:
396
                             
                    
                        
                            
                            
                                环境:OS:Centos 6.5 x64 & Soft:Hadoop 
1.2.11、查看当前块大小,默认64M。[huser@master hadoop-1.2.1]$ bin/hadoop fs -stat "%o" 
./in/test1.txt671088642、修改hdfs-site.conf...
                            
                            
                                分类:
其他好文   时间:
2014-05-06 08:59:21   
                                阅读次数:
368
                             
                    
                        
                            
                            
                                namenode 和 secondaryNamenode 
运行在同一机器上,分离配置到新节点上。环境:OS:Centos 6.5 x64 & Soft:Hadoop 
1.2.1master中的配置不是决定谁是namenode,而是决定谁是secondarynamenode。决定谁是namenode的...
                            
                            
                                分类:
其他好文   时间:
2014-05-06 01:08:13   
                                阅读次数:
388
                             
                    
                        
                            
                            
                                在流数据的处理过程中,为了保证处理结果的可信度(不能多算,也不能漏算),需要做到对所有的输入数据有且仅有一次处理。在Spark 
Streaming的处理机制中,不能多算,比较容易理解。那么它又是如何作到即使数据处理结点被重启,在重启之后这些数据也会被再次处理呢?
                            
                            
                                分类:
其他好文   时间:
2014-05-06 00:58:21   
                                阅读次数:
465
                             
                    
                        
                            
                            
                                Hadoop集群实施成功后,再次格式化名称节点。环境:OS:Centos 6.5 x64 & 
Soft:Hadoop 1.2.11、格式化之前hadoop集群正常。[huser@master hadoop-1.2.1]$ jps7927 
SecondaryNameNode7773 NameNode8...
                            
                            
                                分类:
其他好文   时间:
2014-05-06 00:52:59   
                                阅读次数:
491
                             
                    
                        
                            
                            
                                控制namenode检查点发生的频率。环境:OS:Centos 6.5 x64 & 
Soft:Hadoop 1.2.11、修改core-site.xml,设置参数。 fs.checkpoint.period 
1802、重启集群,查看namenode下文件更新频率,每隔180秒更新一次。[huser@...
                            
                            
                                分类:
其他好文   时间:
2014-05-06 00:26:48   
                                阅读次数:
429
                             
                    
                        
                            
                            
                                RDD的依赖关系
Rdd之间的依赖关系通过rdd中的getDependencies来进行表示,
在提交job后,会通过在DAGShuduler.submitStage-->getMissingParentStages
privatedefgetMissingParentStages(stage:
 Stage): List[Stage] = {
valmissing
 =newHash...
                            
                            
                                分类:
其他好文   时间:
2014-05-03 15:56:22   
                                阅读次数:
282
                             
                    
                        
                            
                            
                                模拟namenode崩溃,将name目录的内容全部删除,然后通过secondary 
namenode恢复namenode。环境:OS:Centos 6.5 x64 & Soft:Hadoop 
1.2.11、进入name目录下,删除name目录内容。[huser@master name]$ pwd/h...
                            
                            
                                分类:
其他好文   时间:
2014-05-02 14:44:28   
                                阅读次数:
517
                             
                    
                        
                            
                            
                                关系型数据库与非关系型数据库自1970年,埃德加·科德提出关系模型之后,关系数据库便开始出现,经过了40多年的演化,如今的关系型数据库具备了强大的存储、维护、查询数据的能力。但在关系数据库日益强大的时候,人们发现,在这个信息爆炸的“大数据”时代,关系型数据库遇到了性能方面的瓶颈,面对一个表中上亿条的...
                            
                            
                                分类:
数据库   时间:
2014-05-02 09:02:06   
                                阅读次数:
365