这篇文章介绍的是简单的配置Hadoop集群的方法,适合实验和小型项目用,正式运行的集群需要用更正规的方法和更详细的参数配置,不适合使用这篇文章。安装
JDK在终端输入$ java -version如果有反应,说明已安装过jdk。如果显示的信息里出现了类似OpenJDK的字样,如java versio...
分类:
其他好文 时间:
2014-06-07 02:53:11
阅读次数:
336
最近使用hive做一些etl工作,除了日常sql的编写,了解hadoop及hive的一些底层原理性质的东西包括调优非常有必要,一次hive调优就把原来的零散文件做了合并。首先记下hadoop常用的命令:(hadoop
fs -help列出全部)1,hadoop fs –fs [local | ]:声...
分类:
其他好文 时间:
2014-05-26 20:44:49
阅读次数:
308
一、使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase
二、使用Sqoop将HDFS/Hive/HBase中的数据导出到MySQL
2.3 HBase中的数据导出到mysql
目前没有直接的命令将HBase中的数据导出到MySQL,但可以先将HBase中的数据导出到HDFS中,再将数据导出到MySQL。
三、使用Sqoop将Orac...
分类:
数据库 时间:
2014-05-26 05:48:46
阅读次数:
304
1.需求 使用hvie
server一段时间后,业务部门需要自己不定时的查询业务数据,之前这一块都是他们提需求我们来做,后来发现这样重复一样的工作放在我们这边做是在没有效率,遂提出给他们工具或者web
UI自助查询,当然hive有自己的hwi可以通过网页UI进行自助查询,但是这对不懂sql的业务人....
分类:
编程语言 时间:
2014-05-24 14:11:12
阅读次数:
406
Hive中小表与大表关联(join)的性能分析【转自:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html】经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到...
分类:
其他好文 时间:
2014-05-24 08:58:53
阅读次数:
531
Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法。Hive将数据组织为表,这就使得HDFS上的数据有了结构,元数据即表的模式,都存储在名为meta....
分类:
其他好文 时间:
2014-05-23 05:54:55
阅读次数:
1771
代志远早年就职网易研究院从事MapReduce与DFS系统的自主研发,后加入支付宝数据平台负责Hadoop与HBase体系的架构设计与二次研发,支付宝流计算与分布式搜索系统的设计和研发,后成为支付宝海量计算体系架构师兼支付宝三代架构成员。现就转战于阿里巴巴集团-CDO-海量数据部门,负责创新性项目的研究和跟进,目前专注于Google第二代数据库产品MegaStore的研究和在阿里的落地。
在...
分类:
数据库 时间:
2014-05-21 17:04:40
阅读次数:
393
基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
课程讲师:迪伦
课程分类:Java
适合人群:高级
课时数量:96课时
用到技术:MapReduce、HDFS、Map-Reduce、Hive、Sqoop
涉及项目:Greenplum Hadoop大数据分析平台
更新程度:完毕
对这个课程有兴趣的朋友可以加我的QQ2059055336和...
分类:
其他好文 时间:
2014-05-21 13:23:22
阅读次数:
363