搜索关键字：hive on spark，搜索到12366个结果！码迷,mamicode.com！

Hadoop、Pig、Hive、NOSQL 学习资源收集

（一）hadoop 相关安装部署1、hadoop在windows cygwin下的部署：http://lib.open-open.com/view/1333428291655http://blog.csdn.net/ruby97/article/details/7423088http://blog....

分类：数据库时间：2014-07-22 22:50:55 阅读次数：517

sqoop 从mysql导入hive的字段名称问题

hive中有些关键字限制，因此有些字段名称在mysql中可用，但是到了hive就不行。比如order必须改成order1, 下面列出了我们发现的一些不能在hive中使用的字段名称order => order1sort => sort1reduce => reduce1cast => cast1directory => directory1...

分类：数据库时间：2014-07-19 11:33:04 阅读次数：263

Spark Catalyst源码分析之SqlParser

本文以Catalyst源代码的角度解析Catalyst的解析器如何解析SQL的生成LogicalPlan的。...

分类：数据库时间：2014-07-19 11:15:13 阅读次数：389

Apache Spark源码走读之18 -- 使用Intellij idea调试Spark源码

上篇博文讲述了如何通过修改源码来查看调用堆栈，尽管也很实用，但每修改一次都需要编译，花费的时间不少，效率不高，而且属于侵入性的修改，不优雅。本篇讲述如何使用intellij idea来跟踪调试spark源码。

分类：其他好文时间：2014-07-18 17:13:03 阅读次数：210

Hive架构层面优化之七压缩

常见的压缩有：对中间结果压缩、对输出结果压缩。压缩对比：算法压缩前/压缩后压缩速度解压速度GZIP13.4%21MB/s118 MB/sLZO20.5%135 MB/s410 MB/sSnappy22.2%172 MB/s409 MB/sSnappy介绍：Snappy 网站：http://code....

分类：其他好文时间：2014-07-18 16:12:24 阅读次数：352

Hive ERROR: Out of memory due to hash maps used in map-side aggregation .

当hive在执行大数据量的统计查询语句时，经常会出现下面OOM错误，具体错误提示如下：Possible error: Out of memory due to hash maps used in map-side aggregation.Solution: Currently hive.map.ag...

分类：其他好文时间：2014-07-18 11:37:23 阅读次数：305

Hive架构层面优化之六分布式缓存

案例：Hadoop jar引用：hadoop jar -libjars aa.jar bb.jar ….jar包会被上传到hdfs，然后分发到每个datanode假设有20个jar文件，每天jar文件被上传上万次，分发达上万次（百G级），造成很严重的IO开销。如何使这些jar包在HDFS上进行缓存，...

分类：其他好文时间：2014-07-18 00:23:59 阅读次数：265

Spark 个人实战系列(2)--Spark 服务脚本分析

前言: spark最近非常的火热, 本文不讲spark原理, 而是研究spark集群搭建和服务的脚本是如何编写的, 管中窥豹, 希望从运行脚本的角度去理解spark集群. 研究的spark为1.0.1版. spark集群采用standalone模式搭建, 其基础架构为master-slave(w.....

分类：其他好文时间：2014-07-17 23:26:44 阅读次数：345

Spark教程-构建Spark集群（1）

对于90%以上想学习Spark的人而言，如何构建Spark集群是其最大的难点之一，为了解决大家构建Spark集群的一切困难，家林把Spark集群的构建分为了四个步骤，从零起步，不需要任何前置知识，涵盖操作的每一个细节，构建完整的Spark集群。从零起步，构建Spark集群经典四部曲：第一步：搭建H...

分类：其他好文时间：2014-07-17 21:35:29 阅读次数：389

日志分析方法概述

最近几年日志分析这方面的人才需求越来越多，主要伴随数据挖掘的快速发展而迅速增长的。碰巧又在工作中又接触到一些日志记录方面的工作，就顺便了解一下日志系统的整个流程。下面这篇文章转自百度同学的一篇文章，针对大规模日志分析，联系到hadoop,hive的解决方案，阐述的比较全面。另外就是阿里已经开发出类似的系统odps—通过sql语言进行数据的分析处理，详情见：http://102.alibab...

分类：其他好文时间：2014-07-17 20:15:30 阅读次数：301

共12366条上一页 1 ... 1209 1210 1211 1212 1213 ... 1237 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)