码迷,mamicode.com
首页 >  
搜索关键字:impala    ( 252个结果
如何安装使用Impala
一、Impala简介Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Im...
分类:其他好文   时间:2015-01-28 22:34:05    阅读次数:336
典型大数据计算模式与系统
典型大数据计算模式与系统  典型大数据计算模式 典型系统 大数据查询分析计算 HBase,Hive,Cassandra,Impala,Shark,Hana等 批处理计算 Hadoop MapReduce,Spark等 流式计算 Scribe,Flume,Storm,S4, Spark S...
分类:其他好文   时间:2015-01-13 21:33:30    阅读次数:382
Papers on github
Interesting ReadingsBig Data Benchmark– Benchmark of Redshift, Hive, Shark, Impala and Stiger/Tez.NoSQL Comparison– Cassandra vs MongoDB vs CouchDB vs...
分类:其他好文   时间:2015-01-04 11:04:53    阅读次数:401
2014年大数据年终工作总结
今天是圣诞节,2014年马上要过去了。回顾这一年在大数据研发上的点点滴滴,总结如下三个方面: 一、大数据研发技术路线 目前,存在太多的大数据技术,商业软件,如Teradata、Oracle、SAP、IBM等。开源的,如Hadoop、Spark、MPP DB、NewSQL等。在大数据领域,Hadoop呈一支独大势。经过这段时间的学习和了解,发现Hadoop技术复杂,架构复杂,社区版成熟度可能也就80%左右。要想把Hadoop玩转起来,可能需要投入巨大的成本来完善。Cloudera的 CDH也仅...
分类:其他好文   时间:2014-12-25 11:25:53    阅读次数:719
关系代数的并行计算
从Dremel和Impala的学习引申出了SQL查询的并行执行问题,于是借此机会深入学习一下关系数据库以及关系代数的并行计算。Speedup和ScaleupSpeedup指用两倍的硬件换来一半的执行时间。Scaleup指两倍的硬件换来同等时间内执行两倍的任务。但往往事情不是那么简单,两倍的硬件也会带来其他问题:更多CPU带来的长启动时间和通信开销,以及并行计算带来的数据倾斜问题。多处理器架构共享内...
分类:其他好文   时间:2014-12-13 15:12:15    阅读次数:254
Impala中的代码生成技术
Cloudera Impala是一种为Hadoop生态系统打造的开源MPP(massive parallel processing)数据库,它主要为分析型查询负载而设计,而非OLTP。Impala能最大限度地利用现代硬件和高效查询执行的最新技术。LLVM下的运行时代码生成就是用来提升执行性能的技术之一。LLVM简介LLVM是一个编译器及相关工具的库(toolchain),它不同于独立应用式(sta...
分类:其他好文   时间:2014-12-06 21:35:10    阅读次数:319
从NSM到Parquet:存储结构的衍化
为了优化MapReduce及MR之前的各种工具的性能,在Hadoop内建的数据存储格式外,又涌现了一批各种各样的存储方式。如优化Hive性能的RCFile,以及配合Impala实现出Google Dremel功能(类似甚至是功能的超集)的Parquet等。今天就来一起学习一下HDFS中数据存储的进化历程。数据摆放结构数据摆放结构(data placement structure),顾名思义,就是数...
分类:其他好文   时间:2014-12-06 19:32:48    阅读次数:620
Phoenix实现用SQL查询HBase
文章来源:大牛笔记 HBase,一个NoSQL数据库,可存储大量非关系型数据。 HBase,可以用HBase shell进行操作,也可以用HBase Java api进行操作。HBase虽然是一个数据库,但是它的查询语句,很不太好用。要是能像使用Mysql等关系型数据库一样用sql语句操作HBase,那就很Perfect了。 现有工具有很多Hive,Tez,Impala,Shar...
分类:数据库   时间:2014-12-02 13:34:24    阅读次数:783
分布式内存文件系统Tachyon
UCBerkeley研发的Tachyon(超光子['tæki???n],名字要不要这么太嚣张啊:)是一款为各种集群并发计算框架提供内存数据管理的平台,也可以说是一种内存式的文件系统吧。如下图,它就处于这样一个层次:在现有存储系统如HDFS之上,在Spark,MapReduce,Impala等各种计算框架之下。为什么要有这么一个框架呢?MapReduce就不说了,但像Spark这种内存计算框架,为什...
分类:其他好文   时间:2014-11-27 20:29:10    阅读次数:287
Configuring Other CDH Components to Use HDFS HA with Cloudera Manager 5.2
ConfiguringHBasetoUseHDFSHAnothingtodoUpgradingtheHiveMetastoretoUseHDFSHAConfiguringHuetoWorkwithHDFSHAaddHttpFSroleinstanceunderHDFSRestarttheHueserviceConfiguringImpalatoWorkwithHDFSHAimpala-shell-iimpala-daemon-host[impala-daemon-host:21000]>INVALIDA..
分类:其他好文   时间:2014-11-26 11:39:39    阅读次数:161
252条   上一页 1 ... 21 22 23 24 25 26 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!