一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 二、实践方案 简要说明理由。 三、实践任务分解 根据所选的题目,明确实验步骤,分解任务到每天。 四、实践计划 按任务分解撰写计划表,每天按计划表开展工作。 第天根据实际情况更新计划表,有必要时调整。 1. ...
分类:
其他好文 时间:
2020-06-23 19:18:25
阅读次数:
45
深度剖析了各个基础技术的源码(ZooKeeper、Hive、Spark、Flink、Hadoop等),对这些基础技术知识动态的排列组合,形成大数据全局架构观,并深入讲述大数据全局架构设计的方方面面,打造真正满足企业万亿级海量数据规模的数据中台,真正赋能前台业务。同时,在企业万亿级真实项目落地环节,采用高性能、高可用、高扩展的架构设计原则,技术上更是融合了企业级主流的离线架构和实时架构,带领大家构建
分类:
其他好文 时间:
2020-06-23 18:39:30
阅读次数:
58
一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 Kaggle分析数据项目:亚马孙乐器的评测 https://www.kaggle.com/eswarchandt/amazon-music-reviews 选择第二个题目,Kaggle分析数据项目,理由是H ...
分类:
其他好文 时间:
2020-06-23 17:18:13
阅读次数:
47
一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 选择1.Hadoop平台应用, 淘宝双11数据分析与预测 理由:比较有兴趣 二、实践方案 步骤零:实验环境准备 查看实验指南 步骤一:本地数据集上传到数据仓库Hive 查看实验指南 步骤二:Hive数据分析 查看实验指南 步骤三 ...
分类:
其他好文 时间:
2020-06-23 17:11:36
阅读次数:
53
感谢分享:http://blog.sina.com.cn/s/blog_7e04e0d00102w140.html 采集程序是使用hive -f xx.hql> xx.out,在使用sqoop将数据导入关系型数据库。 最近赶上大数据平台升级,忽然之间跑的好好的任务忽然报错说类型转换错误。 结果经查询 ...
分类:
其他好文 时间:
2020-06-23 15:54:30
阅读次数:
73
1.系统常用检查命令 1 磁盘 df -h 2 内存 free -m 3 负载 top 4 5 [hadoop@bigdata ~]$ free -m 6 total used free shared buff/cache available 7 Mem: 7823 222 6229 257 137 ...
分类:
系统相关 时间:
2020-06-23 15:37:42
阅读次数:
82
一、概述 1.是Hadoop中的一套分布式的计算框架 2.将整个计算过程拆分为2个阶段:Map阶段、Reduce阶段 3.Map阶段一般负责数据的整理,Reduce阶段负责数据的汇总 4.如果输入路径是一个文件,则MapReduce只处理这个文件;如果输入的是一个目录,则处理这个目录下的所有文件 - ...
分类:
其他好文 时间:
2020-06-23 15:36:59
阅读次数:
38
Hive llap服务安装说明及测试 参考:https://www.cnblogs.com/hdpdriver/p/7642729.html 1.简介说明 从Hive 2.0引入了LLAP(Live Long And Process),2.1进行了比较大的优化,可以说hive已经走向了内存计算, 目 ...
分类:
其他好文 时间:
2020-06-23 15:26:38
阅读次数:
174
一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 二、实践方案 简要说明理由。 三、实践任务分解 根据所选的题目,明确实验步骤,分解任务到每天。 四、实践计划 按任务分解撰写计划表,每天按计划表开展工作。 第天根据实际情况更新计划表,有必要时调整。 *说明 ...
分类:
其他好文 时间:
2020-06-23 15:03:21
阅读次数:
42
Hbase容灾与备份 一、前言 本文主要介绍 Hbase 常用的三种简单的容灾备份方案,即CopyTable、Export/Import、Snapshot。分别介绍如下: 二、CopyTable 2.1 简介 CopyTable可以将现有表的数据复制到新表中,具有以下特点: 支持时间区间 、row ...
分类:
其他好文 时间:
2020-06-23 00:44:02
阅读次数:
60