前提 Hive 需要是 2.0以上版本 Tez配置 下载好tar包后,将tar包上传到HDFS集群路径下 hadoop fs -put /opt/software/apache-tez-0.9.1-bin.tar.gz/ /tez 将Linux本机上的tar包解压 Hive配置 在hive/conf ...
分类:
其他好文 时间:
2020-03-31 22:43:48
阅读次数:
632
一、hive中表分为两种 1、内部表(管理表): 删除表的时候删除hdfs上的数据。 2、外部表 删除表的时候不删除hdfs上的数据。 外部表不能使用insert的方式插入数据,所有的数据来源,都是外部别人提供的,所以hive认为自己没有独占这份数据,所以删除hive表的时候,不会删 除表里面的数据 ...
分类:
其他好文 时间:
2020-03-31 19:14:39
阅读次数:
79
为了增强容错性和高可用,避免上游RDD被重复计算的大量时间开销,Spark RDD设计了包含多种存储级别的缓存和持久化机制,主要有三个概念:cache、persist、checkout。 1、存储级别介绍(StorageLevel) 存储级别以一个枚举类StorageLevel定义,分为以下几种: ...
分类:
系统相关 时间:
2020-03-30 12:43:50
阅读次数:
102
本文将通过一个演示工程来快速上手java调用HDFS的常见操作。接下来通过阅读HDFS的源码,一步步展开HDFS相关原理、理论知识的说明。 ...
分类:
编程语言 时间:
2020-03-30 09:49:06
阅读次数:
70
一、数据规模 二、集群处理数据的吞吐量 2.1 hdfs的读写测试 Hadoop自带一个测试用的jar包,可以运行它来得知集群处理数据的性能如何 hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-c ...
分类:
其他好文 时间:
2020-03-29 12:35:17
阅读次数:
225
前言 准备: 7Zip下载:压缩工具,支持*.tar.gz格式的压缩文件解压 Hadoop下载:http://archive.apache.org/dist/hadoop/core/,笔者选择3.0.0版本下载,官网下载的网速如同断网。。。 winutils下载:https://github.com ...
HDFS写数据的流程 HDFS shell上传文件a.txt,300M 对文件分块,默认每块128M。 shell向NameNode发送上传文件请求 NameNode检测文件系统目录树,看能否上传 NameNode向shell发送允许上传通知 shell向NameNode发送上传block1,备份为 ...
分类:
其他好文 时间:
2020-03-29 01:09:38
阅读次数:
66
使用truncate仅可删除内部表数据,不可删除表结构 truncate table 表名 (truncate可删除所有的行,但是不能删除外部表) 使用shell命令删除外部表 hdfs -dfs -rm -r 外部表路径 使用 drop 可删除整个表 drop table 表名 ...
分类:
其他好文 时间:
2020-03-28 20:08:48
阅读次数:
72
(1)Hadoop1.x和2.x之间的区别 Hadoop 1.0内核主要由两个分支组成:MapReduce和HDFS,在高可用、扩展性等方面存在问题 1)HDFS存在的问题 1.NameNode单点故障,难以应用于在线场景。 2.NameNode压力过大,且内存受限,影响扩展性。 2)MapRedu ...
分类:
其他好文 时间:
2020-03-28 17:42:52
阅读次数:
69
之前用java做Hadoop相关项目没有遇到这种问题,今天使用python操作HDFS遇到这个问题,首先是权限之类的问题,在core site.xml中配置可以访问的hosts和groups, 具体: 注意xxx是管理用户名,然而我配置之后仍然出现not allowed错误,心想如果是我连接的这个用 ...
分类:
其他好文 时间:
2020-03-28 13:19:33
阅读次数:
72