环境:
Unbunt 12.04 
Hadoop 2.2.x
Sprak 0.9
Scala scala-2.9.0.final.tgz 
步骤
1. 下载 scala
2. 解压scala,然后修改/etc/profile,添加如下
export SCALA_HOME=/home/software/scala-2.9.0.final
export PATH=$P...
                            
                            
                                分类:
其他好文   时间:
2014-06-05 11:52:46   
                                阅读次数:
484
                             
                         
                    
                        
                            
                            
                                package wordcount;
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Int...
                            
                            
                                分类:
其他好文   时间:
2014-06-05 09:12:55   
                                阅读次数:
203
                             
                         
                    
                        
                            
                            
                                本文来自于NoSQLFan联合作者@koven2049,他在淘宝从事Hadoop及HBase相关的应用和优化。对Hadoop、HBase都有深入的了解,本文就是其在工作中对HBase的应用优化小结,分享给大家。
目 录 [ - ]
前言原因应用情况部署、运维和监控测试与发布改进和优化将来计划
前言
hbase是从 hadoop中分离出来的apache顶级开源项目。由...
                            
                            
                                分类:
其他好文   时间:
2014-06-05 08:43:04   
                                阅读次数:
275
                             
                         
                    
                        
                            
                            
                                scp 命令随记
scp file username@remoteIp:directory
创建tar包
tar zcvf file.tar.gz directory
tar zcvf hadoop.tar.gz /hadoop...
                            
                            
                                分类:
其他好文   时间:
2014-06-05 07:36:35   
                                阅读次数:
199
                             
                         
                    
                        
                            
                            
                                最近开始使用MapReduce,发现网上大部分例子都是对文本数据进行处理的,也就是说在读取输入数据时直接使用默认的TextInputFormat进行处理即可。对于文本数据处理,这个类还是能满足一部分应用场景。但是如果要处理以二进制形式结构化记录存储的文件时,这些类就不再适合了。
本文以一个简单的应用场景为例:对按照二进制格式存储的整数做频数统计。以此来说明如何重写FileInputFormat来实现对非文本数据的处理。...
                            
                            
                                分类:
其他好文   时间:
2014-06-04 21:53:46   
                                阅读次数:
341
                             
                         
                    
                        
                            
                            
                                在使用Bulkload向HBase导入数据中, 自己编写Map与使用KeyValueSortReducer生成HFile时, 出现了下面的异常: 
java.io.IOException: Non-increasing Bloom keys: 201301025200000000000003520000000000000500 after 20131119510000000000000001...
                            
                            
                                分类:
编程语言   时间:
2014-06-03 05:55:44   
                                阅读次数:
359
                             
                         
                    
                        
                            
                            
                                Hbase的安装须要考虑Hadoop的版本号,即兼容性。有不足的希望能指出。下面考究官网得到的,关于hadoop版本号和hbase版本号可到下面网址中下载:http://mirror.bit.edu.cn/apache/hbaseHBase-0.92.xHBase-0.94.xHBase-0.96....
                            
                            
                                分类:
其他好文   时间:
2014-05-31 15:24:19   
                                阅读次数:
377
                             
                         
                    
                        
                            
                            
                                写在前面前文:用python + hadoop streaming 编写分布式程序(一) -- 
原理介绍,样例程序与本地调试为了方便,这篇文章里的例子均为伪分布式运行,一般来说只要集群配置得当,在伪分布式下能够运行的程序,在真实集群上也不会有什么问题。为了更好地模拟集群环境,我们可以在mapred-...
                            
                            
                                分类:
编程语言   时间:
2014-05-30 14:56:56   
                                阅读次数:
309
                             
                         
                    
                        
                            
                            
                                Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapRed...
                            
                            
                                分类:
其他好文   时间:
2014-05-30 14:23:07   
                                阅读次数:
409