先抛出几个问题 1. 存储是不是基石? 2. 假如存储不挂,数据真的准确吗? 3. 存储挂了,数据还准确吗? 4. 如何校验是否正确?如何让其正确?机制是不是必须有? 注:sqoop抽数据,无error丢数据的概率很小 数据质量校验:数据量校验 count相同吗?count相同内容相同吗? 数据量相 ...
分类:
其他好文 时间:
2019-11-30 09:43:00
阅读次数:
82
Hadoop [翻译大象] 广义: 以apache hadoop软件为主的生态圈(hive sqoop spark flink....)狭义: apache hadoop软件 以后这些网站经常用到hadoop.apache.orghive.apache.orgspark.apache.org had ...
分类:
其他好文 时间:
2019-11-25 15:21:18
阅读次数:
134
2019-11-22 17:15:27,705 FATAL [IPC Server handler 13 on 44844] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1574410493054_0011_m_00 ...
分类:
数据库 时间:
2019-11-23 17:52:36
阅读次数:
71
本篇将在 阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建 阿里云ECS服务器部署HADOOP集群(二):HBase完全分布式集群搭建(使用外置ZooKeeper) 阿里云ECS服务器部署HADOOP集群(三):ZooKeeper 完全分布式集群搭建 阿里云ECS服务 ...
分类:
其他好文 时间:
2019-11-23 12:54:33
阅读次数:
80
Sqoop简介 Sqoop是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具 原理: 将导入或导出命令翻译成Mapreduce程序来实现。 在翻译出的Mapreduce中主要是对InputFormat和OutputFormat进行定制 RDBMS到HD ...
分类:
Web程序 时间:
2019-11-21 21:27:34
阅读次数:
113
大数据从入门到入土 语言基础:java(Java se,javaweb) Linux 基础:Linux(shell,高并发架构,lucene,solr) 框架学习:Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) ...
分类:
其他好文 时间:
2019-11-16 21:47:53
阅读次数:
107
Hive增量更新方案方案一(总结出来业界可行方案):1、Hive原始表提前规划好以时间分区,初始化装载源库记录为base_table(最新数据)2、每个相关表都会有一个timestamp列,对每一行操作做了修改,都会重置这列timestamp为当前时间戳;3、新增数据通过sqoop(支持当天抽取)或 ...
分类:
其他好文 时间:
2019-10-31 23:38:23
阅读次数:
309
1.查看数据库 2.根据mysql表创建hive表 3.mysql导入数据到hive 4.mysql导入数据到hbase 5.导出数据到mysql 6.增量导入数据到hbase 7.增量导入数据到hive 8.导出数据 ...
分类:
其他好文 时间:
2019-10-27 12:55:44
阅读次数:
83
大数据环境与docker 在使用CDH构建在k8s上的时候遇到了异常困难的问题,其检查机制会将解析主机的IP作为目标容器的IP,导致两者无法正常安装部署,只能放弃已经做好的容器镜像,之后在不断的寻找中终于到了可以达到预期目标的方法。 首先是找到了Spark的两个容器镜像: https://hub.d ...
分类:
其他好文 时间:
2019-10-22 15:28:22
阅读次数:
141
一、概述 1. sqoop是Apache 提供的工具,用于hdfs和关系型数据库之间数据的导入和导入 2.可以从hdfs导出数据到关系型数据库,也可以从关系型数据库导入数据到hdfs 二、实现步骤 1. 准备sqoop安装包,官网地址:http://sqoop.apache.org 2. 配置jdk ...
分类:
其他好文 时间:
2019-10-09 19:38:03
阅读次数:
122