(一)HDFS简介及其基本概念 HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HD ...
分类:
其他好文 时间:
2020-02-15 18:47:15
阅读次数:
65
错误: hadoop Requested data length 86483783 is longer than maximum configured RPC length 解决: 修改NameNode的hdfs-site.xml配置文件,添加以下配置: <property> <name>ipc.m ...
分类:
其他好文 时间:
2020-02-14 18:14:56
阅读次数:
74
查询语言。由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。 数据存储位置。Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的。而数据库 ...
分类:
其他好文 时间:
2020-02-13 22:35:19
阅读次数:
73
摘要:Hadoop是一个由Apache基金会所开发的分布式基础架构,Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算,特点是:高可靠性,高扩展性,高效性,高容错性。l ...
分类:
其他好文 时间:
2020-02-13 10:12:16
阅读次数:
64
文件的存取都是在hdfs内完成 (一)数据去重: 程序: 操作: 结果: (二)求平均值 程序: 操作: 结果: ...
分类:
其他好文 时间:
2020-02-12 16:34:22
阅读次数:
159
1、任务中如何确定spark RDD分区数、task数目、core个数、worker节点个数、excutor数量 (1)hdfs 上的文件的存储形式是以 Block 的形式存储的,每个 File 文件都包含了很多块,一个Block默认是128M大小。当 spark 从 hdfs 上读取数据的时候,会 ...
分类:
其他好文 时间:
2020-02-12 16:16:22
阅读次数:
199
Sqoop概述 Sqoop是一款开源的工具,主要用于在Hadoop生态系统(Hadoop、Hive等)与传统的数据库(MySQL、Oracle等)间进行数据的传递,可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。 Sqoop导入原理: 在导入 ...
分类:
其他好文 时间:
2020-02-12 14:33:53
阅读次数:
82
一:Hadoop基本概念 一个分布式系统基础架构,由Apache基金会所开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。 充分利用集群的威力进行高速运算和存储。 Hadoop的框架最核心的设计就是:HDFS和MapReduce 二:Hadoop解决问题 1.海量数据的存储(HDFS) ...
分类:
其他好文 时间:
2020-02-12 13:07:41
阅读次数:
128
1、Hive导出数据有几种方式?如何导出数据(1)insert导出本地:insertoverwritelocaldirectory‘本地路径‘select*from表名;导出到HDFS:insertoverwritedirectory‘hdfs路径‘select*from表名;(2)hadoop命令hdfsdfs-get/user/hive/warehouse/st
分类:
其他好文 时间:
2020-02-11 11:50:10
阅读次数:
59
启动hadoop -ls:显示文件夹内容 -put:上传到hdfs上 -cat:显示文件内容 hdfs文件读取成功:三种方式 ...
分类:
系统相关 时间:
2020-02-11 09:38:51
阅读次数:
116