一、实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法; (2)熟悉 HDFS 的基本使用方法; (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法。 二、实验平台 操作系统:centos6.4; Scala版本:2.10.6.; Hadoop 版本 ...
分类:
其他好文 时间:
2020-01-28 19:11:15
阅读次数:
94
原理流程分析 Map端: 文件存储在HDFS中,每个文件切分成多个一定大小(默认128M)的Block(默认3个备份)存储在多个数据节点上,数据格定义以"\n"分割每条记录,以空格区分一个目标单词。 每读取一条记录,调用一次map函数,然后继续读取下一条记录直到split尾部。 map 输出的结果暂 ...
分类:
其他好文 时间:
2020-01-28 16:02:42
阅读次数:
109
一. DDL数据定义 创建数据库 1)create database db_hive; 2)避免要创建的数据库已经存在错误,增加 if not exists 判断。 create database if not exists db_hive; 3)创建一个数据库,指定数据库在 HDFS 上存放的位置 ...
分类:
其他好文 时间:
2020-01-26 11:43:56
阅读次数:
67
Hbase:基于hdfs的数据库,来源于google的一篇论文bigtable.基于HDFS实现高可用、分布式、列式存储、核心包括:-Rowkey: 可以简单理解成mysql中的主键-列簇,列-时间戳按照Rowkey字典顺序存储,基于rowkey的高效检索,同时继承hdfs的高吞吐能力。Hbase用 ...
分类:
其他好文 时间:
2020-01-25 15:31:49
阅读次数:
94
job是串行执行的, 执行完上一个才执行下一个 eg:Wordcount案例 val lines = sc.textFile("本地URL or HDFS URL")//详解见代码1 val words = lines.flatMap(line => line.split(" "))//也会返回一个 ...
分类:
其他好文 时间:
2020-01-25 00:56:57
阅读次数:
119
一、实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法; (2)熟悉 HDFS 的基本使用方法; (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法。 二、实验平台 操作系统:Ubuntu16.04; Spark 版本:2.1.0; Hadoop 版 ...
分类:
其他好文 时间:
2020-01-24 17:13:10
阅读次数:
113
hive导出到本地数据报错 Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Unable to move source hdfs://localhost:9000/tmp/hive/daisy/ ...
分类:
其他好文 时间:
2020-01-24 15:50:13
阅读次数:
201
flume 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的 海量日志采集、聚合和传输的系统 。Flume基于流式架构,灵活简单。 大数据框架大致分为3类: 数据的采集和传输:flume 数据的存储:HDFS 数据的计算:MapReduce 1.2 应用场景 ...
分类:
Web程序 时间:
2020-01-23 12:37:38
阅读次数:
103
业务场景:需求:通过flume进行数据采集,将本地(windows服务器)不断产生的csv文件采集到hdfs上。问题:本地文件在生成的过程中,会出现文件名重复的现象。也就是说,在前一秒生成文件名为aaa.csv,该文件经过flume进行处理之后会进行文件名的更改,默认情况下文件名会更改为aaa.cs... ...
分类:
Web程序 时间:
2020-01-23 09:14:02
阅读次数:
290
hadoop 集群中有两种节点,一种是namenode,还有一种是datanode。 其中datanode主要负责数据的存储,namenode主要负责三个功能,分别是(1)管理元数据 (2)维护目录树 (3)响应客户请求 首先介绍下,元数据格式 hdfs在外界看来就是普通的文件系统,可以通过路径进行 ...
分类:
其他好文 时间:
2020-01-22 13:07:22
阅读次数:
117