Hive 运行架构
由Facebook开源,最初用于解决海量结构化的日志数据统计问题:ETL工具;
构建于Hadoop的HDFS和MapReduce智商,用于管理和查询结构化/非结构化数据的数据仓库;
设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据:
使用HQL作为查询接口;
使用HDFS作为存储底层;...
分类:
其他好文 时间:
2014-08-12 19:05:44
阅读次数:
314
尽管我们在虚拟机client上能非常快通过shell命令,进行运行一些已经封装好实例程序,可是在应用中还是是自己敲代码,然后部署到server中去,以下,我通过程序进行浅谈一个程序的部署过程。在启动Hadoop之后,然后把程序达成可运行的jar包,并把对应的第三方jar包 包括进去。运行hadoop...
分类:
其他好文 时间:
2014-08-12 00:19:43
阅读次数:
224
13年初整理的一个关于MapReduce的简单介绍和总结,希望对大家有所帮助,同学欢迎交流JVM、Spark、Hadoop等技术。...
分类:
其他好文 时间:
2014-08-11 21:29:42
阅读次数:
251
hadoop的计算模型就是map/reduce,每一个计算任务会被分割成很多互不依赖的map/reduce计算单元,将所有的计算单元执行完毕后整个计算任务就完成了。因为计算单元之间互不依赖所以计算单元可以分配到不同的计算机上执行,这样就可以将计算压力平摊到多个机器上面。当然性能线性提高是有条件的,....
分类:
其他好文 时间:
2014-08-11 14:38:52
阅读次数:
189
Hadoop的辉煌还能延续多久?摘要:Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。而另一方面,MapReduce在谷歌已不再显赫。当企业瞩目MapReduce的时候,谷歌好像早已进入到了下一个时代。Hadoop技术已经无处不在。不管是好是坏,Hadoo...
分类:
其他好文 时间:
2014-08-10 23:56:51
阅读次数:
396
Hadoop+Lucene+NutchHadoop中实现了 Google的GFS和MapReduce算法,使Hadoop成为了一个分布式的计算平台。Hadoop不仅是一个用于存储的分布式文件系统,而且是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。Lucene是一个Java高性能全文...
分类:
其他好文 时间:
2014-08-10 23:51:50
阅读次数:
316
——谨将此文献给阿瑞(@Nyanko君一生懸命)和湛卢。阿瑞在MapReduce等方面提供的技术支持,使我们成为最早充分利用ODPS的团队之一;湛卢提出很多分析问题的新思路,让我们在走投无路的时候屡次重拾希望。0. 写在最前面这个系列的几篇文章,记录我们队对于问题的整个处理过程。分成两个部分:首先的...
分类:
其他好文 时间:
2014-08-10 23:51:01
阅读次数:
431
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineerin...
分类:
其他好文 时间:
2014-08-10 10:18:00
阅读次数:
315
从hadoop框架与MapReduce模式中谈海量数据处理前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,认为它们非常是神奇,而神奇的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,认为Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到...
分类:
其他好文 时间:
2014-08-09 18:40:08
阅读次数:
297
1. Impala架构 Impala是Cloudera在受到Google的Dremel启示下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coord...
分类:
其他好文 时间:
2014-08-09 15:39:48
阅读次数:
451