首先我们知道聚合函数(如sum()、avg()、max()等等)是针对定义的行集(组)执行聚集,每组只返回一个值。 窗口函数也是针对定义的行集(组)执行聚集,可为每组返回多个值。如既要显示聚集前的数据,又要显示聚集后的数据。 窗口查询有两个步骤:将记录分割成多个分区,然后在各个分区上调用窗口函数。 ...
分类:
其他好文 时间:
2020-02-29 11:34:46
阅读次数:
65
Hadoop初学思维导图 1,Hadoop ··· Hadoop: Hadoop的核心由HDFS和MapReduce组成。HDFS是分布式文件系统,是Hadoop生态圈的分布式数据存储基石;MapReduce是计算组件,会被Spark取代。 ··· Hadoop生态圈: Hadoop生态圈是一系列用 ...
分类:
其他好文 时间:
2020-02-29 00:17:31
阅读次数:
101
在搭好HA集群之后,想测试一下集群的高可用性,于是先把active的namenode给停掉: hadoop-daemon.sh stop namenode 或者直接kill掉该节点namenode的对应进程也可。 但是通过hdfs haadmin -getServiceState master1 查 ...
分类:
其他好文 时间:
2020-02-28 18:52:26
阅读次数:
101
前期准备 (1)JAVA_HOME:因为Hadoop的配置文件中依赖 $JAVA_HOME。修改/etc/profile文件。 (2)hostname:修改主机名,方便管理。/etc/sysconfig/network。 (3)ip hostname:方便管理,hadoop默认是使用hostname ...
分类:
其他好文 时间:
2020-02-27 23:43:16
阅读次数:
120
1.准备Linux环境 1.0 点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok 回到windo ...
分类:
其他好文 时间:
2020-02-27 19:16:47
阅读次数:
75
一:什么是ZooKeeper Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务 它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等 (一)原始架构 但是当服务器宕机,则应用全部瘫痪。无法做到高可用。应该使用集群实 ...
分类:
其他好文 时间:
2020-02-26 23:07:34
阅读次数:
87
一、什么是序列化与反序列化 序列化是把对象转换为字节序列的过程,使之持久化到磁盘和网络传输(write过程) 反序列化是把字节序列转换为对象的过程,使之成为内存中的对象(read过程) 二、为什么要进行序列化与反序列化 对象只能在内存中 对象只能在本地的进程中使用 通过序列化与反序列的操作: 永久保 ...
分类:
其他好文 时间:
2020-02-26 22:37:48
阅读次数:
71
1.纵向扩容(添加硬盘) 1.1 添加硬盘 确定完成添加,运行 lsblk 查看硬盘使用情况 1.2 硬盘分区 centerOS7的默认文件系统是xfs,centerOS6默认的文件系统是ext4 1.3 挂载 mount 分的区 被挂载的文件夹 注:umount /dev/sdb1 /sdb1 取 ...
分类:
其他好文 时间:
2020-02-26 19:03:30
阅读次数:
85
1.给虚拟机增加新的硬盘 点击完成后,重启虚拟机! 2.硬盘分区 输入命令:lsblk,查看当前硬盘使用情况,我们可以看到刚才增加的硬盘 ①输入命令进行分区: fdisk /dev/sdb m可以查看帮助 m:获取帮助 n:分区 p:查看分区表 w:将分区信息写入硬盘 ②输入n开始分区 输入命令ls ...
分类:
其他好文 时间:
2020-02-26 15:25:42
阅读次数:
109
java.io.IOException: All specified directories have failed to load. at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataSt ...
分类:
编程语言 时间:
2020-02-26 01:13:41
阅读次数:
90