HBase 运行机制 Shell 命令操作 HBASE(举例) create 'templagetable' , 'f1', 'f2', 'f3' list 显示 shell 等价 shell 也是等价的 ...
分类:
其他好文 时间:
2020-02-29 13:29:40
阅读次数:
57
错误代码: 完整错误信息为: Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.hadoop.mapred.Inva ...
分类:
编程语言 时间:
2020-02-29 13:14:45
阅读次数:
81
首先我们知道聚合函数(如sum()、avg()、max()等等)是针对定义的行集(组)执行聚集,每组只返回一个值。 窗口函数也是针对定义的行集(组)执行聚集,可为每组返回多个值。如既要显示聚集前的数据,又要显示聚集后的数据。 窗口查询有两个步骤:将记录分割成多个分区,然后在各个分区上调用窗口函数。 ...
分类:
其他好文 时间:
2020-02-29 11:34:46
阅读次数:
65
Hadoop初学思维导图 1,Hadoop ··· Hadoop: Hadoop的核心由HDFS和MapReduce组成。HDFS是分布式文件系统,是Hadoop生态圈的分布式数据存储基石;MapReduce是计算组件,会被Spark取代。 ··· Hadoop生态圈: Hadoop生态圈是一系列用 ...
分类:
其他好文 时间:
2020-02-29 00:17:31
阅读次数:
101
在搭好HA集群之后,想测试一下集群的高可用性,于是先把active的namenode给停掉: hadoop-daemon.sh stop namenode 或者直接kill掉该节点namenode的对应进程也可。 但是通过hdfs haadmin -getServiceState master1 查 ...
分类:
其他好文 时间:
2020-02-28 18:52:26
阅读次数:
101
前期准备 (1)JAVA_HOME:因为Hadoop的配置文件中依赖 $JAVA_HOME。修改/etc/profile文件。 (2)hostname:修改主机名,方便管理。/etc/sysconfig/network。 (3)ip hostname:方便管理,hadoop默认是使用hostname ...
分类:
其他好文 时间:
2020-02-27 23:43:16
阅读次数:
120
1、datax简述 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数 ...
分类:
其他好文 时间:
2020-02-27 20:52:31
阅读次数:
264
1.准备Linux环境 1.0 点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok 回到windo ...
分类:
其他好文 时间:
2020-02-27 19:16:47
阅读次数:
75
一:什么是ZooKeeper Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务 它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等 (一)原始架构 但是当服务器宕机,则应用全部瘫痪。无法做到高可用。应该使用集群实 ...
分类:
其他好文 时间:
2020-02-26 23:07:34
阅读次数:
87
一、什么是序列化与反序列化 序列化是把对象转换为字节序列的过程,使之持久化到磁盘和网络传输(write过程) 反序列化是把字节序列转换为对象的过程,使之成为内存中的对象(read过程) 二、为什么要进行序列化与反序列化 对象只能在内存中 对象只能在本地的进程中使用 通过序列化与反序列的操作: 永久保 ...
分类:
其他好文 时间:
2020-02-26 22:37:48
阅读次数:
71