当今信息化时代充斥着大量的数据。海量数据存储是一个必然的趋势。然而数据如何的存储和查询,尤其是当今非结构化数据的快速增长,对其数据的存储,处理,查询。使得如今的 关系数据库存储带来了巨大的挑战。分布存储技术是云计算的基础,主要研究如何存储、组织和管理数据中心上的大规模海量数据.由于面临的数据规模和用户规模更加庞大,在可扩展性、容错性以及成本控制方面面临着更加严峻的挑战[1]。
       ...
                            
                            
                                分类:
其他好文   时间:
2014-05-15 18:13:55   
                                阅读次数:
438
                             
                    
                        
                            
                            
                                在流数据的处理过程中,为了保证处理结果的可信度(不能多算,也不能漏算),需要做到对所有的输入数据有且仅有一次处理。在Spark 
Streaming的处理机制中,不能多算,比较容易理解。那么它又是如何作到即使数据处理结点被重启,在重启之后这些数据也会被再次处理呢?
                            
                            
                                分类:
其他好文   时间:
2014-05-06 00:58:21   
                                阅读次数:
465
                             
                    
                        
                            
                            
                                1.Hadoop简介Hadoop[h?du:p]实现了一个分布式文件系统(Hadoop 
Distributed File 
System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high 
throughput)来访问应用程序的数...
                            
                            
                                分类:
其他好文   时间:
2014-04-30 03:17:00   
                                阅读次数:
604