码迷,mamicode.com
首页 >  
搜索关键字:hive on spark    ( 12366个结果
Hadoop、Pig、Hive、NOSQL 学习资源收集
(一)hadoop 相关安装部署1、hadoop在windows cygwin下的部署:http://lib.open-open.com/view/1333428291655http://blog.csdn.net/ruby97/article/details/7423088http://blog....
分类:数据库   时间:2014-07-22 22:50:55    阅读次数:517
sqoop 从mysql导入hive的字段名称问题
hive中有些关键字限制,因此有些字段名称在mysql中可用,但是到了hive就不行。比如order必须改成order1, 下面列出了我们发现的一些不能在hive中使用的字段名称order  => order1sort => sort1reduce => reduce1cast => cast1directory => directory1...
分类:数据库   时间:2014-07-19 11:33:04    阅读次数:263
Spark Catalyst源码分析之SqlParser
本文以Catalyst源代码的角度解析Catalyst的解析器如何解析SQL的生成LogicalPlan的。...
分类:数据库   时间:2014-07-19 11:15:13    阅读次数:389
Apache Spark源码走读之18 -- 使用Intellij idea调试Spark源码
上篇博文讲述了如何通过修改源码来查看调用堆栈,尽管也很实用,但每修改一次都需要编译,花费的时间不少,效率不高,而且属于侵入性的修改,不优雅。本篇讲述如何使用intellij idea来跟踪调试spark源码。
分类:其他好文   时间:2014-07-18 17:13:03    阅读次数:210
Hive架构层面优化之七压缩
常见的压缩有:对中间结果压缩、对输出结果压缩。压缩对比:算法压缩前/压缩后压缩速度解压速度GZIP13.4%21MB/s118 MB/sLZO20.5%135 MB/s410 MB/sSnappy22.2%172 MB/s409 MB/sSnappy介绍:Snappy 网站:http://code....
分类:其他好文   时间:2014-07-18 16:12:24    阅读次数:352
Hive ERROR: Out of memory due to hash maps used in map-side aggregation .
当hive在执行大数据量的统计查询语句时,经常会出现下面OOM错误,具体错误提示如下:Possible error: Out of memory due to hash maps used in map-side aggregation.Solution: Currently hive.map.ag...
分类:其他好文   时间:2014-07-18 11:37:23    阅读次数:305
Hive架构层面优化之六分布式缓存
案例:Hadoop jar引用:hadoop jar -libjars aa.jar bb.jar ….jar包会被上传到hdfs,然后分发到每个datanode假设有20个jar文件,每天jar文件被上传上万次,分发达上万次(百G级),造成很严重的IO开销。如何使这些jar包在HDFS上进行缓存,...
分类:其他好文   时间:2014-07-18 00:23:59    阅读次数:265
Spark 个人实战系列(2)--Spark 服务脚本分析
前言: spark最近非常的火热, 本文不讲spark原理, 而是研究spark集群搭建和服务的脚本是如何编写的, 管中窥豹, 希望从运行脚本的角度去理解spark集群. 研究的spark为1.0.1版. spark集群采用standalone模式搭建, 其基础架构为master-slave(w.....
分类:其他好文   时间:2014-07-17 23:26:44    阅读次数:345
Spark教程-构建Spark集群(1)
对于90%以上想学习Spark的人而言,如何构建Spark集群是其最大的难点之一,为了解决大家构建Spark集群的一切困难,家林把Spark集群的构建分为了四个步骤,从零起步,不需要任何前置知识,涵盖操作的每一个细节,构建完整的Spark集群。从零起步,构建Spark集群经典四部曲: 第一步:搭建H...
分类:其他好文   时间:2014-07-17 21:35:29    阅读次数:389
日志分析方法概述
最近几年日志分析这方面的人才需求越来越多,主要伴随数据挖掘的快速发展而迅速增长的。碰巧又在工作中又接触到一些日志记录方面的工作,就顺便了解一下日志系统的整个流程。下面这篇文章转自百度同学的一篇文章,针对大规模日志分析,联系到hadoop,hive的解决方案,阐述的比较全面。 另外就是阿里已经开发出类似的系统odps—通过sql语言进行数据的分析处理,详情见:http://102.alibab...
分类:其他好文   时间:2014-07-17 20:15:30    阅读次数:301
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!