HDFS小文件问题及解决方案:http://dongxicheng.org/mapreduce/hdfs-small-files-solution/Hadoop升级方案(一):Hadoop 
1.0内部版本升级(初稿):http://dongxicheng.org/mapreduce-nextgen/...
                            
                            
                                分类:
其他好文   时间:
2014-05-10 02:08:24   
                                阅读次数:
327
                             
                    
                        
                            
                            
                                前端Nginx配置:1、安装nginx创建Nginx用户、创建/var/tmp/nginx目录并编译安装useradd-rnginx
mkdir/var/tmp/nginx
tarxfnginx-1.4.7.tar.gz
./configure--prefix=/usr--sbin-path=/usr/sbin/nginx--conf-path=/etc/nginx/nginx.conf--error-log-path=/var/log/nginx/..
                            
                            
                                分类:
数据库   时间:
2014-05-05 12:18:04   
                                阅读次数:
597
                             
                    
                        
                            
                            
                                1.核心 HDFS 分布式文件系统 主从结构,一个namenoe和多个datanode, 
分别对应独立的物理机器 
1)NameNode是主服务器,管理文件系统的命名空间和客户端对文件的访问操作。NameNode执行文件系统的命名空间操作,比如打开关闭重命名文件或者目录等,它也负责...
                            
                            
                                分类:
其他好文   时间:
2014-05-05 10:35:14   
                                阅读次数:
432
                             
                    
                        
                            
                            
                                转自:http://blog.csdn.net/bluesky8640/article/details/6945776之前装python、jdk、hadoop都是用的root账户,这是一个绝对的失策,linux对用户访问权限很严格,新创的hod账户根本无法启动hadoop,而root在hod模式下使...
                            
                            
                                分类:
系统相关   时间:
2014-05-05 10:09:20   
                                阅读次数:
753
                             
                    
                        
                            
                            
                                上个月有台RedHat服务器更换网卡,编译、安装驱动后servicenetworkrestart。提示更换的网卡不存在。ifconfig-a发现有三个网卡:eth0eth1eth2。vi/etc/udev/rules.d/70-persistent-net.rules把没用的网卡(8139too)信息删除或注释掉,再修改新网卡(r8169)参数NAME="eth2"例子:[r..
                            
                            
                                分类:
其他好文   时间:
2014-05-04 17:17:52   
                                阅读次数:
333
                             
                    
                        
                            
                            
                                Mahout小案例学习,实现k-means算法。环境:OS:Centos 6.5 x64 & 
Soft:Hadoop 1.2.1 & Mahout 0.91、下载测试数据[huser@master hadoop]$ wget 
http://archive.ics.uci.edu/ml/databas...
                            
                            
                                分类:
其他好文   时间:
2014-05-04 12:34:58   
                                阅读次数:
340
                             
                    
                        
                            
                            
                                之前在写MR 
job的时候,由于要在云梯,或者一淘的开发集群上运行;所以处理方法是,在本地打成jar包,然后scp到客户端网关机上,然后在提交job运行。这样的问题时,有时候如果遇到一些逻辑上的问题,job跑挂了。必须在本地修改程序,然后重新打包,scp,再运行,这样比较麻烦;询问了一圈,觉得采用M...
                            
                            
                                分类:
其他好文   时间:
2014-05-04 10:54:29   
                                阅读次数:
427
                             
                    
                        
                            
                            
                                软件环境: 虚拟机:VMware Workstation 10 
操作系统:ubuntu-12.04-desktop-amd64 JAVA版本:jdk-7u55-linux-x64 Hadoop版本:hadoop-1.2.1 
Hadoop下载地址:http://mirrors.cnnic.cn/apa...
                            
                            
                                分类:
其他好文   时间:
2014-05-04 10:43:51   
                                阅读次数:
370
                             
                    
                        
                            
                            
                                MapReduce 
job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如:part-(m|r)-00000之类。但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。...
                            
                            
                                分类:
其他好文   时间:
2014-05-04 10:22:15   
                                阅读次数:
341
                             
                    
                        
                            
                            
                                dataNode 无法启动是配置过程中最常见的问题,主要原因是多次format namenode 造成namenode 和datanode的clusterID不一致。建议查看datanode上面的log信息。解决办法:修改每一个datanode上面的CID(位于dfs/data/current/VERSION文件夹中)使两者一致。...
                            
                            
                                分类:
其他好文   时间:
2014-05-03 21:37:44   
                                阅读次数:
308