搜索关键字：hive 集群搭建，搜索到7132个结果！码迷,mamicode.com！

Hive架构层面优化之一分表

场景：某个日志表数据量很大，而且访问该表的作业比较多，造成耗时比较长；解决方案：将用的比较少/不常用的字段剥离出去；案例：日志表trackinfo，每天约有2亿数据量，有5000个作业按天访问，每天的日志数据量有可能会继续添加下去，那么很可能就满足不了要求（每添加10%的数据量作业大概要添加20分钟...

分类：其他好文时间：2014-07-18 20:35:32 阅读次数：192

Hive架构层面优化之二合理利用中间结果集（单Job）

是针对单个作业，针对本job再怎么优化也不会影响到其他job；Hadoop的负载主要有两部分：CPU负载和IO负载；问题：机器io开销很大，但是机器的cpu开销较小，另外map输出文件也较大，怎么办？解决办法：通过设置map的中间输出进行压缩就可以了，这个不会影响最终reduce的输出。集群中的机器...

分类：其他好文时间：2014-07-18 20:29:09 阅读次数：384

Hive架构层面优化之五合理设计表分区(静态分区和动态分区)

合理建表分区有效提高查询速度。重要数据采用外部表存储，CREATE EXTERNAL TABLE，数据和表只是一个location的关联，drop表后数据不会丢失；内部表也叫托管表，drop表后数据丢失；所以重要数据的表不能采用内部表的方式存储。在全天的数据里查询某个时段的数据，性能很低效-----...

分类：其他好文时间：2014-07-18 20:16:47 阅读次数：298

从hive将数据导出到mysql（转）

从hive将数据导出到mysqlhttp://abloz.com2012.7.20author:周海汉在上一篇文章《用sqoop进行mysql和hdfs系统间的数据互导》中，提到sqoop可以让RDBMS和HDFS之间互导数据，并且也支持从mysql中导入到HBase，但从HBase直接导入mysq...

分类：数据库时间：2014-07-18 20:00:07 阅读次数：482

Hive架构层面优化之七压缩

常见的压缩有：对中间结果压缩、对输出结果压缩。压缩对比：算法压缩前/压缩后压缩速度解压速度GZIP13.4%21MB/s118 MB/sLZO20.5%135 MB/s410 MB/sSnappy22.2%172 MB/s409 MB/sSnappy介绍：Snappy 网站：http://code....

分类：其他好文时间：2014-07-18 16:12:24 阅读次数：352

Hive架构层面优化之六分布式缓存

案例：Hadoop jar引用：hadoop jar -libjars aa.jar bb.jar ….jar包会被上传到hdfs，然后分发到每个datanode假设有20个jar文件，每天jar文件被上传上万次，分发达上万次（百G级），造成很严重的IO开销。如何使这些jar包在HDFS上进行缓存，...

分类：其他好文时间：2014-07-18 00:23:59 阅读次数：265

Spark 个人实战系列(2)--Spark 服务脚本分析

前言: spark最近非常的火热, 本文不讲spark原理, 而是研究spark集群搭建和服务的脚本是如何编写的, 管中窥豹, 希望从运行脚本的角度去理解spark集群. 研究的spark为1.0.1版. spark集群采用standalone模式搭建, 其基础架构为master-slave(w.....

分类：其他好文时间：2014-07-17 23:26:44 阅读次数：345

日志分析方法概述

最近几年日志分析这方面的人才需求越来越多，主要伴随数据挖掘的快速发展而迅速增长的。碰巧又在工作中又接触到一些日志记录方面的工作，就顺便了解一下日志系统的整个流程。下面这篇文章转自百度同学的一篇文章，针对大规模日志分析，联系到hadoop,hive的解决方案，阐述的比较全面。另外就是阿里已经开发出类似的系统odps—通过sql语言进行数据的分析处理，详情见：http://102.alibab...

分类：其他好文时间：2014-07-17 20:15:30 阅读次数：301

Hive优化策略介绍

作为企业Hadoop应用的核心产品之一，Hive承载着公司95%以上的离线统计，甚至很多企业里的离线统计全由Hive完成；Hive在企业云计算平台发挥的作用和影响越来越大，如何优化提速已经显得至关重要；Hive作业的规模决定着优化层级，一个Hive作业的优化和一万个Hive作业的优化截然不同；后续文...

分类：其他好文时间：2014-07-17 13:13:40 阅读次数：266

Hive架构层面优化之四常用复杂/低效的统计从源上给出，以避免上层作业过多计算

案例一：trackinfo，基础表处理常用的低性能UDF背景描述：日志信息10分钟加载一次到实时日志表trackreal中（按小时分区），为了保证实时性，在加载的过程中并没有做任何的过滤处理，加载到trackreal表后再过滤非法数据、爬虫数据等，生成按天增量日志表trackinfo，然后根据不同的...

分类：其他好文时间：2014-07-17 13:09:44 阅读次数：226

共7132条上一页 1 ... 698 699 700 701 702 ... 714 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)