从《Hadoop权威指南》选取了一个小案例,在Hadoop集群环境中运行。1、新建JAVA类,保存书中源代码。[huser@master bin]$ vi 
URLCat.javaimport java.io.InputStream;import java.net.URL;import org.apa...
                            
                            
                                分类:
其他好文   时间:
2014-05-14 03:52:36   
                                阅读次数:
457
                             
                    
                        
                            
                            
                                本文记录Ant编译MapReduce程序的过程。程序使用《Hadoop MapReduce 
Cookbook》中的示例代码。1、安装AntAnt项目主页:http://ant.apache.org/下载二进制安装包,例如apache-ant-1.9.4-bin.tar.gz,上传到Hadoop集群环...
                            
                            
                                分类:
其他好文   时间:
2014-05-12 20:44:36   
                                阅读次数:
398
                             
                    
                        
                            
                            
                                分布式存储当下互联网飞速发展,海量并发所产生的数据量以几何方式增长,随着信息链接方式日益多样化,数据存储的结构也发生了变化,在这样的压力下我们不得不重新审视大量数据的存储所带来的挑战,比如:数据采集、数据存储、数据搜索、数据共享、数据传输、数据分析、数据可..
                            
                            
                                分类:
其他好文   时间:
2014-05-12 04:08:32   
                                阅读次数:
493
                             
                    
                        
                            
                            
                                DNS服务器的更新:一听就知道不止一台的DNS服务器,要是一台也用不着更新对吧?一般都是DNS集群。一台DNS更新了,添加一条数据,下面的都要跟着它变。主DNS服务器的配置首先先配置DNS服务器信息同步,后面再配置更新DNS服务器:1、 
前面很简单:安装bind软件包、修改named服务配置文件;V...
                            
                            
                                分类:
其他好文   时间:
2014-05-12 00:49:26   
                                阅读次数:
278
                             
                    
                        
                            
                            
                                一、CoroSynccorosync最初只是用来演示OpenAIS集群框架接口规范的一个应用,可以说corosync是OpenAIS的一部分,然而后面的发展超越了官方最初的设想,越来越多的厂商尝试使用corosync作为集群解决方案。如Redhat的RHCS集群套件就是基于corosync实现。corosync只提供了messagela..
                            
                            
                                分类:
其他好文   时间:
2014-05-11 19:43:46   
                                阅读次数:
532
                             
                    
                        
                            
                            
                                接续接上篇缓存时代来临为蓝本,继续改造我们的百万级站点架构,这次我们拿之前存储静态内容的nfs开刀,众所周知nfs的多台集群节点下可能由于多重原因(磁盘io,网络带宽,并发场景),不适合做文件共享系统的基础结构.互联网站点中,存在大量图片或其他静态内容,并且这些内容一般在1M之..
                            
                            
                                分类:
其他好文   时间:
2014-05-11 19:16:07   
                                阅读次数:
674
                             
                    
                        
                            
                            
                                Hadoop集群(第9期)_MapReduce初级案例1、数据去重 
"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 
实例描述 对数.....
                            
                            
                                分类:
其他好文   时间:
2014-05-11 16:02:24   
                                阅读次数:
538
                             
                    
                        
                            
                            
                                一、分布式文件系统分布式文件系统(Distributed File 
System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连,也就是集群文件系统,可以支持大数量的节点以及PB级的数量存储。相对地,在一个分享的磁盘文件系统中,所有节点对数据存储区块都有相同的...
                            
                            
                                分类:
其他好文   时间:
2014-05-11 15:16:30   
                                阅读次数:
470
                             
                    
                        
                            
                            
                                Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程
工作流程 : 
InputFile --> mappers --> [Partitioner] --> reducers -->
 outputFiles
理解 : 
1 输入文件,可以是指定远程文件系统内的文件夹下的 *
2 通过集群自己分解到各个PC...
                            
                            
                                分类:
编程语言   时间:
2014-05-11 14:46:35   
                                阅读次数:
519
                             
                    
                        
                            
                            
                                目的
此文档描述了 FairScheduler,
 Hadoop 的一个可插入式的调度器,允许 YARN 应用在一个大集群中公平地共享资源。
简介
公平调度是一种分配资源给应用的方法,以致到最后,平均上所有应用获得相等的资源。  Hadoop NextGen 能够调度多种类型的资源。默认的, Fair Scheduler 仅以内存为基础作公平调度决策。可以用Ghodsi 等开发的 ...
                            
                            
                                分类:
其他好文   时间:
2014-05-11 13:05:57   
                                阅读次数:
393