一、概述1、 为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等;各任务单元之间存在时间先后及前后依赖关系;为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;例如:我们可能有这样一个... ...
分类:
其他好文 时间:
2020-01-07 10:25:31
阅读次数:
92
一.HAWQ的历史与现状 想法和原型系统(2011):GOH阶段(Greenplum Database On HDFS)。 HAWQ 1.0 Alpha(2012):多个国外大型客户试用,当时客户性能测试是Hive的数百倍。促进了HAWQ 1.0作为正式产品发布。 HAWQ 1.0 GA(2013年 ...
分类:
其他好文 时间:
2020-01-06 14:20:04
阅读次数:
106
问题描述 现有几千条数据,需要插入到对应的Hive/Impala表中。安排给了一个同事做,但是等了好久,反馈还没有插入完成……看到他的做法是:对每条数据进行处理转换为对应的insert语句,但是,实际执行起来,速度很慢,每条数据都要耗时1s左右。比在MySQL中批量插入数据慢多了,因而抱怨Impal ...
分类:
其他好文 时间:
2020-01-06 09:20:15
阅读次数:
443
美团 R 语言数据运营实战 2018年08月02日 作者: 喻灿 刘强 文章链接 3689字 8分钟阅读 一、引言 近年来,随着分布式数据处理技术的不断革新,Hive、Spark、Kylin、Impala、Presto 等工具不断推陈出新,对大数据集合的计算和存储成为现实,数据仓库/商业分析部门日益 ...
分类:
编程语言 时间:
2020-01-05 11:29:38
阅读次数:
115
Maven基础 Web项目开发理论 视图层:直接负责Web页面的表现 控制层:控制页面表现 持久化层:与数据库和存储交互 目前开发所存在的问题 1. 一个项目就是一个工程 如果一个项目非常庞大,就不再适合使用package划分模块,最好每一个模块对应一个工程,利于分工协作。 而 借助于maven,就 ...
分类:
其他好文 时间:
2020-01-04 14:29:30
阅读次数:
70
一、概述 sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。 核心的功能有两个: 导入、迁入 导出、迁出 导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统 导出数据:从 Hadoop 的文件系 ...
分类:
其他好文 时间:
2020-01-04 12:52:32
阅读次数:
105
配件清单:CPU主板:x11sdi内存:三星内存DDR4240032g两条固态:SanDiskSSD240G显卡:NVIDIAteslaM4电源:海盗船RM1000X安装系统就略过了,网上有很多方式,可以自行查找现在cuda10.2和显卡驱动是一起装的,所以这是一步完成一、安装cuda10.2请到官方下载:https://developer.nvidia.com/cuda-toolkit-arch
分类:
系统相关 时间:
2020-01-03 23:05:31
阅读次数:
1371
一、 hive流程 hive与hdfs 和 yarn、mr 交互 动态 First : hive从 hdfs中拉取数据 ( .txt文件) Second : hive 与 SQL 交互。。。即 获取 模板信息 ※ : 模板信息 三个映射 A 表 与 文件 B 字段 与 文件内容 C 分割符 deli ...
分类:
其他好文 时间:
2020-01-02 22:21:16
阅读次数:
76
1.下载hive http://mirror.bit.edu.cn/apache/hive/ 2.解压文件 tar -xvf apache-hive-3.1.2-bin.tar.gz 修改名称 mv apache-hive-3.1.2 hive 3.配置环境变量 1.修改~/.bashrc文件 vi ...
分类:
系统相关 时间:
2020-01-02 15:42:56
阅读次数:
110
Hbase数据管理 Hbase就是Hadoop database Hbase是列式数据库 因此Hbase特别适合寻找按照时间排序寻找Top n的场景 Hive数据管理 基于 Hadoop 文件系统的数据仓库 Hive是建立在Hadoop上的数据仓库基础架构。它提供了一系列的工具,用来进行数据提取、转 ...
分类:
其他好文 时间:
2020-01-02 15:24:13
阅读次数:
66