今天写的实验三 1.i京安装完成spark和hadoop (1) 启动 Hadoop,在 HDFS 中创建用户目录“/user/hadoop”; cd /usr/local/hadoop ./bin/hdfs dfs –mkdir –p /user/hadoop (2) 在 Linux 系统的本地文 ...
分类:
其他好文 时间:
2020-02-02 13:48:18
阅读次数:
96
分布式数据集 编辑 Spark围绕的核心概念,是弹性分布式数据集(RDD),一个有容错机制,可以被并行操作的集合。目前有两种类型的RDD: 并行集合(Parrallelized Collections),接收一个已经存在的Scala集合,在它上面运行各种并发计算; Hadoop数据集(Hadoop ...
分类:
其他好文 时间:
2020-02-01 23:17:16
阅读次数:
80
数据质量:1/ 数据质量控制环节2/ 元数据管理 数据质量包括:数据的完整性 数据自成体系、无数据缺失(包括实体记录缺失、字段信息缺失)数据一致性: 在整个数仓中,同一数据各主题、层次数据一致正确性: 在数仓各部分、确保数据不失真及时性: 整个数仓处理过程中,数据及时到位、及时反馈 数据质量的控制不 ...
分类:
其他好文 时间:
2020-01-31 14:04:01
阅读次数:
71
一、Hbase 简介 hdfs 是分布式文件系统, 只支持在文件层面的增、删除、改(需要把文件下载下来,改完,再上传上去)、查 hbase 是支持海量数据存储的NoSql数据库,基于hdfs的,支持数据的增、删、改、查,支持随机写数据(改指定的某一条数据) hbase 查询数据只能根据rowkey进 ...
分类:
其他好文 时间:
2020-01-30 19:24:15
阅读次数:
78
hadoop是什么? 是一个分布式基础架构,主要解决海量数据存储以及数据分析计算问题。 hadoop三大发行版本? Apache、clourdera、Hortonworks hadoop优势? 高可靠、高扩展、高效、高容错 hadoop1.x和2.x的区别? HDFS(hadoop distribu ...
分类:
其他好文 时间:
2020-01-30 14:29:07
阅读次数:
79
1、首先打开 hive DEBUG日志,执行以下命令,直接将日志输出到控制台 2、我们知道HIVE启动过程中,首先会先连接hive metastore,然后在连接HDFS namenode,我们可以根据日志时间点来判断和排查哪一步执行时间过长导致。 3、如果是hive metastore 连接过慢, ...
分类:
其他好文 时间:
2020-01-29 23:31:34
阅读次数:
285
一、业务架构 二、大数据全链路架构 三、主流框架 3.1 第一代大数据框架: 各自为战 3.2 第二代大数据计算框架 3.3 第三代大数据计算框架 Flink 集群启动 格式化集群 要启动 Hadoop 集群,需要启动 HDFS 和 YARN 两个集群。 注意:首次启动HDFS时,必须对其进行格式化 ...
分类:
其他好文 时间:
2020-01-29 23:28:23
阅读次数:
139
MapReduce与spark MapReduce: 操作单一,只有map,reduce spark:提供多种操作:过滤,分组,排序.... (一)spark生态环境: Mesos和YARN都是资源调度管理器 HDFS:分布式系统存储组件 S3:亚马逊提供的云端的简单的存储服务 Tachyon:基于 ...
分类:
其他好文 时间:
2020-01-28 20:53:14
阅读次数:
68
一、实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法; (2)熟悉 HDFS 的基本使用方法; (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法。 二、实验平台 操作系统:centos6.4; Scala版本:2.10.6.; Hadoop 版本 ...
分类:
其他好文 时间:
2020-01-28 19:11:15
阅读次数:
94
原理流程分析 Map端: 文件存储在HDFS中,每个文件切分成多个一定大小(默认128M)的Block(默认3个备份)存储在多个数据节点上,数据格定义以"\n"分割每条记录,以空格区分一个目标单词。 每读取一条记录,调用一次map函数,然后继续读取下一条记录直到split尾部。 map 输出的结果暂 ...
分类:
其他好文 时间:
2020-01-28 16:02:42
阅读次数:
109