最近为了调试hive试了很多hive参数,对于hive任务优化,减少使用内存有一些自己的见解,在此做一个记录。 一:Hive是什么 Hive是面向大数据的数据仓库,是一种将SQL转换为mapreduce的工具。 Hive是面向大数据的数据仓库,是一种将SQL转换为mapreduce的工具。 二:ma ...
分类:
其他好文 时间:
2019-09-21 23:44:00
阅读次数:
135
Hadoop生态圈 摘要:一:基本构成:HDFS(Hadoop分布式文件系统);Mapreduce(分布式计算框架);HBASE(分布式列存数据库); Zookeeper(分布式协作服务);HIVE(数据仓库);Pig(ad-hoc脚本)等。 二:详细了解一下其特性: Hadoop是一个由Apach ...
分类:
其他好文 时间:
2019-09-21 23:05:58
阅读次数:
119
一、Git初始 1. 定义 ? 分布式的版本控制系统,在每个使用者电脑上就有一个完整的数据仓库,没有网络依然可以使用Git.当然为了习惯及团队协作,会将本地数据同步到Git服务器或者GitHub等代码仓库. ? https://www.cnblogs.com/Sungeek/p/9152223.ht ...
分类:
其他好文 时间:
2019-09-21 19:16:34
阅读次数:
94
一、计算机结构 五大部件:输入设备、输出设备、存储器、运算器、控制器 二、cpu、硬盘、内存三者之间的关系 cpu:是计算机运算核心和控制中心,让电脑的各个部件顺利工作,起到协调和控制作用 硬盘:存储资料和软件等数据设备,有容量大,断电数据不丢失的特点,也被人们称之为“数据仓库” 内存:a、负责硬盘 ...
分类:
编程语言 时间:
2019-09-18 23:24:16
阅读次数:
178
大数据作为2019年比较热门的技术,受到越来越多的关注,那么对于一个想进入大数据的朋友来说,最想知道的是:大数据学什么?今天科多大数据就和你们一起来分享一篇关于大数据学习内容体系介绍的文章。大数据技术体系太庞杂了,基础技术覆盖数据采集、数据预处理、分布式存储、NOSQL数据库、多模式计算(批处理、在线处理、实时流处理、内存处理)、多模态计算(图像、文本、视频、音频)、数据仓库、数据挖掘、机器学习、
分类:
其他好文 时间:
2019-09-16 16:18:53
阅读次数:
103
一、上节总结回顾 上一讲里,根据DMP系统的各个应用场景,我们从抽象的原理层面,选择了AeroSpike作为KV数据库,Kafka作为数据管道,Hadoop/Hive来作为数据仓库。 不过呢,肯定有不信邪的工程师会问,为什么MongoDB,甚至是MySQL这样的文档数据库或者传统的关系型数据库不适应 ...
分类:
数据库 时间:
2019-09-14 11:57:40
阅读次数:
138
声明:本文参考了淘宝/滴滴/美团发表的关于大数据平台建设的文章基础上予以整理。参考链接和作者在文末给出。 在此对三家公司的技术人员无私奉献精神表示感谢,如果文章造成了侵权行为,请联系本人删除。本人在尊重事实的基础上重新组织了语言和内容,旨在给读者揭开一个完善的大数据平台的组成和发展过程。 本文在未经 ...
分类:
其他好文 时间:
2019-09-13 17:30:56
阅读次数:
122
在从 OLTP 业务数据库向 DW 数据仓库抽取数据的过程中,特别是第一次导入之后的每一次增量抽取往往会遇到这样的问题:业务数据库中的一些数据发生了更改,到底要不要将这些变化也反映到数据仓库中?在数据仓库中,哪些数据应该随之变化,哪些可以不用变化?考虑到这些变化,在数据仓库中的维度表又应该如何设计以 ...
分类:
其他好文 时间:
2019-09-13 17:29:48
阅读次数:
71
1.背景 最近宝路接到了一个数据仓库报表POC的压测任务(就一个厂商为啥还叫POC….有点滑稽),本次记录下测试过程中遇到的问题及分析问题的思路。 2.测试环境架构图 发压策略:LR模拟业务人员->>某BI报表系统->>PostgreSQL集群3.遇到的问题 3.问题及分析 往PostgreSQL集 ...
分类:
其他好文 时间:
2019-09-08 13:49:17
阅读次数:
100
1.1数据仓库概念 什么是数据仓库? 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用 目的? 构建面向分析的集成化数据环境,主要职责是做分析,对仓库里面的数据来做分析,数据分析可以支持我们做决策 数据分析特征: (1)面向主题:数据分析有一定 ...
分类:
其他好文 时间:
2019-09-04 00:28:57
阅读次数:
95