Bundled Examples Flink 不同的api详细例子 DataStream applications ( "Java" / "Scala" ) DataSet applications ( "Java" / "Scala" ) Table API / SQL queries ( "Ja ...
分类:
其他好文 时间:
2019-11-24 09:31:14
阅读次数:
73
配置文件 core-site.xml 1,start all zk 2,start journalnode on each vm hadoop start journalnode 3, hadoop format 4, copy all hadoop tmp/dir to slaves 5, for ...
分类:
其他好文 时间:
2019-11-23 22:08:22
阅读次数:
76
【实验目的】 1)了解hbase服务 2)学会hbase shell命令操作成绩表 【实验原理】 HBase是一个分布式的、面向列的开源数据库,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据。本试验中hbase提供了一个shell的终 ...
分类:
系统相关 时间:
2019-11-23 15:54:07
阅读次数:
276
准备: 两台配置CentOS 7.3的阿里云ECS服务器; hadoop-2.7.3.tar.gz安装包; jdk-8u77-linux-x64.tar.gz安装包; hostname及IP的配置: 更改主机名: 由于系统为CentOS 7,可以直接使用‘hostnamectl set-hostna ...
分类:
其他好文 时间:
2019-11-23 13:12:49
阅读次数:
108
? 一,什么是RDD? 官方定义 :RDD是弹性分布式数据集。 1. 不可变的:类似于scala中的不可变集合,对集合进行转换操作的时候,产生新的集合RDD。 2. 分区的:每个RDD集合有多个分区组成,分区就是很多部分。 3. 并行操作:对RDD集合中的数据操作时,可以同时对所有的分区并行操作 五 ...
分类:
其他好文 时间:
2019-11-22 15:28:06
阅读次数:
62
1. hdfs存文件的时候会把文件切割成block,block分布在不同节点上,目前设置replicate=3,每个block会出现在3个节点上。 2. Spark以RDD概念为中心运行,RDD代表抽象数据集。以代码为例: sc.textFile(“abc.log”) textFile()函数会创建 ...
分类:
其他好文 时间:
2019-11-22 13:26:33
阅读次数:
63
1、在/opt下创建ha文件夹 sudo mkdir ha 2、更改ha文件夹所有者 sudo chown atguigu:atguigu ha 3、将之前配置安装的hadoop文件夹拷贝到刚创建的ha文件夹下 cp r module/hadoop 2.7.2/ ha/ 4、然后进入到刚拷贝过去的h ...
分类:
其他好文 时间:
2019-11-21 12:30:07
阅读次数:
96
hadoop及NameNode和SecondaryNameNode工作机制 1.hadoop组成 Common MapReduce Yarn HDFS (1)HDFS namenode:存放目录,最重要的(主机) datanode:存放数据。(从机) 2namenode:“助手” (2)YARN R ...
分类:
其他好文 时间:
2019-11-21 12:21:17
阅读次数:
83
HA工作机制 HA:高可用(7 24小时不中断服务) 主要的HA是针对集群的master节点的,即namenode和resourcemanager,毕竟DataNode挂掉之后影响 不是特别大,重启就好了。 HDFS的HA HDFS HA功能通过配置Active/Standby两个NameNodes ...
分类:
其他好文 时间:
2019-11-21 11:42:34
阅读次数:
151
为了方便MapReduce直接访问关系型数据库(Mysql,Oracle), Hadoop提供了DBInputFormat和DBOutputFormat两个类。 通过DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapReduce产生的结果集导入到数据 ...
分类:
数据库 时间:
2019-11-20 21:53:46
阅读次数:
83