x86台式机,window7  64位系统
wmware虚拟机(x86的台式机至少是4G内存,才能开2台虚机)
centos6.4操作系统
hadoop-2.2.0.tar.gz
jdk-6u24-linux-i586.bin
WinScp 远程文件传输工具,很好用。可以用于windows和虚拟机Linux之间文件相互拷贝。...
                            
                            
                                分类:
其他好文   时间:
2014-06-02 02:23:23   
                                阅读次数:
315
                             
                         
                    
                        
                            
                            
                                环境说明
1、硬件说明
使用三台PC机,角色分配如下
2、软件说明
约定所有软件都放在/usr/local/路径下
准备工作
1、安装jdk
2、配置SSH
Storm集群安装
安装流程图
1、安装Zookeeper集群
2、安装Storm依赖
zeromq、jzmq、pytho...
                            
                            
                                分类:
其他好文   时间:
2014-05-13 05:44:31   
                                阅读次数:
345
                             
                         
                    
                        
                            
                            
                                声明: 若要转载, 请标明出处.
前提: 在对于大量的数据导入到HBase中, 如果一条一条进行插入, 则太耗时了, 所以可以先采用MapReduce生成HFile文件, 然后使用BulkLoad导入HBase中. 
引用:
一、这种方式有很多的优点:
1. 如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk...
                            
                            
                                分类:
其他好文   时间:
2014-05-10 04:33:38   
                                阅读次数:
513
                             
                         
                    
                        
                            
                            
                                http://blog.csdn.net/wangloveall/article/details/20767161摘要:介绍Hadoop全分布模式操作,实现真正意义上的集群架构。关键词:Hadoop 
全分布模式 文件配置利用Hadoop解决大数据问题时,我们是用全分布模式来操作Hadoop。如何基于...
                            
                            
                                分类:
其他好文   时间:
2014-05-08 23:44:04   
                                阅读次数:
354
                             
                         
                    
                        
                            
                            
                                能够将热爱的技术应用于实际生活生产中,是做技术人员向往和乐之不疲的事。
           现将前期手里面的一个项目做一个大致的总结,与大家一起分享、交流、进步。项目现在正在线上运行,项目名——基于Hadoop的数据分析综合管理平台。
                         
      项目流程整体比较清晰,爬取数据(txt文本)-->数据清洗-->文本模型训练-->文本分类-...
                            
                            
                                分类:
其他好文   时间:
2014-05-04 00:22:05   
                                阅读次数:
476
                             
                         
                    
                        
                            
                            
                                前两天将Hadoop2的完全分布式搭建文档整理发布于网上(http://blog.csdn.net/aaronhadoop/article/details/24859369),朋友相邀,就再将Hadoop2的伪分布式文档整理一下,搭建过Hadoop2完全分布式后,就笑对“伪分布式”说声
 呵呵吧。
       前期的jdk环境、SSH免密钥登录配置在此就不再赘述了,直接进入hadoop2的配...
                            
                            
                                分类:
其他好文   时间:
2014-05-03 21:51:45   
                                阅读次数:
344