TheBig Data Zoneis presented bySplunk, the maker of 
data analysis solutions such asHunk, an analytics tool for Hadoop, and theSplunk 
Web Framework.Liv...
                            
                            
                                分类:
其他好文   时间:
2014-05-08 19:31:55   
                                阅读次数:
596
                             
                    
                        
                            
                            
                                import java.io.IOException;import 
org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import 
org.apache.hadoop.io.Text;import org.ap...
                            
                            
                                分类:
其他好文   时间:
2014-05-08 11:27:24   
                                阅读次数:
309
                             
                    
                        
                            
                            
                                一、Combiner作用1、combiner最基本是实现本地key的聚合,对map输出的key排序,value进行迭代。如下所示:map: (K1, V1) → 
list(K2, V2)combine: (K2, list(V2)) → list(K2, V2)reduce: (K2, list(V...
                            
                            
                                分类:
其他好文   时间:
2014-05-08 09:37:49   
                                阅读次数:
472
                             
                    
                        
                            
                            
                                默认情况下,hive的元数据信息存储在内置的Derby数据中。Facebook将hive元数据存储在关系数据库1、安装好mysql ,sudo apt-get 
install mysql-server2、创建mysql用户hadoop $mysql-uroot-p 进入root用户 mysql>.....
                            
                            
                                分类:
数据库   时间:
2014-05-07 20:40:00   
                                阅读次数:
554
                             
                    
                        
                            
                            
                                集群安装配置Hadoop
集群节点:node4、node5、node6、node7、node8。具体架构:
node4
Namenode,secondnamenode,jobtracker
node5
Datanode,tasktracker
node6
Datanode,tasktracker...
                            
                            
                                分类:
其他好文   时间:
2014-05-07 02:52:47   
                                阅读次数:
361
                             
                    
                        
                            
                            
                                老是报物理内存越界,kill 
container,然后把yarn.scheduler.minimum-allocation-mb设成2048就好了跟这个yarn.nodemanager.pmem-check-enabled参数应该也有关系在这篇文章中得到启发:http://bise.aliapp.c...
                            
                            
                                分类:
其他好文   时间:
2014-05-07 02:15:35   
                                阅读次数:
409
                             
                    
                        
                            
                            
                                import java.io.IOException;import 
java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import 
org.apache.hadoop.fs.Path;import org.ap...
                            
                            
                                分类:
其他好文   时间:
2014-05-07 01:06:02   
                                阅读次数:
271
                             
                    
                        
                            
                            
                                参考书籍: Hadoop in action, 吴超沉思录1.Hbase简介 
1.面向列的分布式数据库 2. 以HDFS作为文件系统 3. 利用MapReduce处理Hbase中海量数据 4. ZookKeeper作为协调工具 5. 
sqoop提供Hbase到关系型数据库中数据导入功能 ...
                            
                            
                                分类:
其他好文   时间:
2014-05-07 00:35:59   
                                阅读次数:
424
                             
                    
                        
                            
                            
                                mapreduce数据本地化(核心特征)、无共享。
   1  HDFS的设计
为了存储超大文件 流式访问(一次写入多次读取)商用硬件(不需要超豪华的机器)
   2  数据快(block)
磁盘一般是512字节 HDFS默认是64M 但与其他文件系统不同的是小于一个块大小的文件不会占用整个块的空间。块为什么设置这么大?(最小化寻址开销)块抽象带来的好处(一个文件的...
                            
                            
                                分类:
其他好文   时间:
2014-05-06 23:26:24   
                                阅读次数:
519