TheBig Data Zoneis presented bySplunk, the maker of 
data analysis solutions such asHunk, an analytics tool for Hadoop, and theSplunk 
Web Framework.Liv...
                            
                            
                                分类:
其他好文   时间:
2014-05-08 19:31:55   
                                阅读次数:
596
                             
                    
                        
                            
                            
                                源表(table1)数据{A:string B:array C:string}A B C190 
[1030,1031,1032,1033,1190] select id191 [1030,1031,1032,1033,1190] select 
id希望的结果是:190 1030 select id1...
                            
                            
                                分类:
其他好文   时间:
2014-05-08 14:19:57   
                                阅读次数:
311
                             
                    
                        
                            
                            
                                大数据是一个体量特别大,数据类别特别大的数据集。也就是说“大数据”本身并不是一种新的技术,也不是一种新的产品, 
而是我们这个时代出现的一种现象。而这个“大”达到了一种什么样的程度呢?可以说他即将突破现有常规软件所能提供的能力极限。 
综上所述,我们觉得使用麦肯锡的定义可能会更为简洁明了:大数据是指无法...
                            
                            
                                分类:
其他好文   时间:
2014-05-08 12:30:00   
                                阅读次数:
301
                             
                    
                        
                            
                            
                                import java.io.IOException;import 
org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import 
org.apache.hadoop.io.Text;import org.ap...
                            
                            
                                分类:
其他好文   时间:
2014-05-08 11:27:24   
                                阅读次数:
309
                             
                    
                        
                            
                            
                                默认情况下,hive的元数据信息存储在内置的Derby数据中。Facebook将hive元数据存储在关系数据库1、安装好mysql ,sudo apt-get 
install mysql-server2、创建mysql用户hadoop $mysql-uroot-p 进入root用户 mysql>.....
                            
                            
                                分类:
数据库   时间:
2014-05-07 20:40:00   
                                阅读次数:
554
                             
                    
                        
                            
                            
                                内容来源:http://blog.csdn.net/azhao_dn/article/details/6921429在hive上执行查询:select 
count(*) from user_active_vv_20110801_31 where active_type_3>0 UNION ALL s...
                            
                            
                                分类:
其他好文   时间:
2014-05-07 20:26:30   
                                阅读次数:
460
                             
                    
                        
                            
                            
                                因为关注大数据,也写过若干关于大数据的文章,做过若干关于大数据的演讲,所以对有关这一主题的论文和书籍非常有兴趣。过去几年,在这方面读过十几本书,上百篇论文和文章。相对而言,舍恩伯格的《大数据时代》是迄今为止我读过的最好的一本专著,中英文都算上。此书的一大贡..
                            
                            
                                分类:
其他好文   时间:
2014-05-07 15:24:59   
                                阅读次数:
226
                             
                    
                        
                            
                            
                                老是报物理内存越界,kill 
container,然后把yarn.scheduler.minimum-allocation-mb设成2048就好了跟这个yarn.nodemanager.pmem-check-enabled参数应该也有关系在这篇文章中得到启发:http://bise.aliapp.c...
                            
                            
                                分类:
其他好文   时间:
2014-05-07 02:15:35   
                                阅读次数:
409
                             
                    
                        
                            
                            
                                import java.io.IOException;import 
java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import 
org.apache.hadoop.fs.Path;import org.ap...
                            
                            
                                分类:
其他好文   时间:
2014-05-07 01:06:02   
                                阅读次数:
271
                             
                    
                        
                            
                            
                                参考书籍: Hadoop in action, 吴超沉思录1.Hbase简介 
1.面向列的分布式数据库 2. 以HDFS作为文件系统 3. 利用MapReduce处理Hbase中海量数据 4. ZookKeeper作为协调工具 5. 
sqoop提供Hbase到关系型数据库中数据导入功能 ...
                            
                            
                                分类:
其他好文   时间:
2014-05-07 00:35:59   
                                阅读次数:
424