搜索关键字：spark on hive，搜索到12366个结果！码迷,mamicode.com！

Hadoop的数据管理，主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive的数据管理。

分类：其他好文时间：2014-07-22 22:54:13 阅读次数：243

在使用union all的时候，系统资源足够的情况下，为了加快hive处理速度，可以设置如下参数实现并发执行set mapred.job.priority=VERY_HIGH;set hive.exec.parallel=true;设置map reduce个数-- 设置map capacityset...

分类：其他好文时间：2014-07-19 21:37:25 阅读次数：264

大数据架构师基础：hadoop家族，Cloudera产品系列等各种技术

大数据我们都知道hadoop，可是还会各种各样的技术进入我们的视野：Spark，Storm，impala，让我们都反映不过来。为了能够更好的架构大数据项目，这里整理一下，供技术人员，项目经理，架构师选择合适的技术，了解大数据各种技术之间的关系，选择合适的语言。我们可以带着下面问题来阅读本文章： 1...

分类：其他好文时间：2014-07-19 21:05:50 阅读次数：236

Hive架构层面优化之一分表

场景：某个日志表数据量很大，而且访问该表的作业比较多，造成耗时比较长；解决方案：将用的比较少/不常用的字段剥离出去；案例：日志表trackinfo，每天约有2亿数据量，有5000个作业按天访问，每天的日志数据量有可能会继续添加下去，那么很可能就满足不了要求（每添加10%的数据量作业大概要添加20分钟...

分类：其他好文时间：2014-07-18 20:35:32 阅读次数：192

Hive架构层面优化之二合理利用中间结果集（单Job）

是针对单个作业，针对本job再怎么优化也不会影响到其他job；Hadoop的负载主要有两部分：CPU负载和IO负载；问题：机器io开销很大，但是机器的cpu开销较小，另外map输出文件也较大，怎么办？解决办法：通过设置map的中间输出进行压缩就可以了，这个不会影响最终reduce的输出。集群中的机器...

分类：其他好文时间：2014-07-18 20:29:09 阅读次数：384

Hive架构层面优化之五合理设计表分区(静态分区和动态分区)

合理建表分区有效提高查询速度。重要数据采用外部表存储，CREATE EXTERNAL TABLE，数据和表只是一个location的关联，drop表后数据不会丢失；内部表也叫托管表，drop表后数据丢失；所以重要数据的表不能采用内部表的方式存储。在全天的数据里查询某个时段的数据，性能很低效-----...

分类：其他好文时间：2014-07-18 20:16:47 阅读次数：298

从hive将数据导出到mysql（转）

从hive将数据导出到mysqlhttp://abloz.com2012.7.20author:周海汉在上一篇文章《用sqoop进行mysql和hdfs系统间的数据互导》中，提到sqoop可以让RDBMS和HDFS之间互导数据，并且也支持从mysql中导入到HBase，但从HBase直接导入mysq...

分类：数据库时间：2014-07-18 20:00:07 阅读次数：482

shell 脚本实战笔记(10)--spark集群脚本片段念念碎

前言: 通过对spark集群脚本的研读, 对一些重要的shell脚本技巧, 做下笔记. *). 取当前脚本的目录sbin=`dirname "$0"` sbin=`cd "$sbin"; pwd`代码评注:# 以上代码为获取执行脚本所在的目录的常用技巧# sbin=$(dirname $0) ...

分类：其他好文时间：2014-07-18 19:16:52 阅读次数：239

Hive优化策略介绍

作为企业Hadoop应用的核心产品之一，Hive承载着公司95%以上的离线统计，甚至很多企业里的离线统计全由Hive完成；Hive在企业云计算平台发挥的作用和影响越来越大，如何优化提速已经显得至关重要；Hive作业的规模决定着优化层级，一个Hive作业的优化和一万个Hive作业的优化截然不同；后续文...

分类：其他好文时间：2014-07-17 13:13:40 阅读次数：266

Hive架构层面优化之四常用复杂/低效的统计从源上给出，以避免上层作业过多计算

案例一：trackinfo，基础表处理常用的低性能UDF背景描述：日志信息10分钟加载一次到实时日志表trackreal中（按小时分区），为了保证实时性，在加载的过程中并没有做任何的过滤处理，加载到trackreal表后再过滤非法数据、爬虫数据等，生成按天增量日志表trackinfo，然后根据不同的...

分类：其他好文时间：2014-07-17 13:09:44 阅读次数：226

共12366条上一页 1 ... 1210 1211 1212 1213 1214 ... 1237 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)