YARN 调度器 1、FIFO(先进先出调度器) 单队列,任务独占所有资源,先进先出; 优点:简单不需配置; 缺点:大集群中大小任务都会阻塞; 2、Capacity(容量调度器) 多队列(单队列FIFO),支持配额,弹性队列,延迟调度(等待别的队列容器释放而非抢占) 优点:相比FIFO更适用于集群 ...
分类:
其他好文 时间:
2020-04-16 13:05:12
阅读次数:
74
一、概述 1. 数据序列化就是将对象或者数据结构转化成特定的格式,使其可在网络中传输,或者可存储在内存或者文件中2. 反序列化则是相反的操作,将对象从序列化数据中还原出来数据序列化的重点在于数据的交换和传输 二、衡量标准 1. 序列化之后的数据大小。因为序列化的数据要通过网络进行传输或者是存储在内存 ...
分类:
其他好文 时间:
2020-04-16 10:32:52
阅读次数:
67
一、IP去重示例 数据文件: 192.168.10.111 192.168.10.111 10.32.100.111 192.168.21.111 192.168.10.112 192.168.10.111 192.168.11.111 192.168.12.112 192.168.11.111 I ...
分类:
移动开发 时间:
2020-04-16 00:26:29
阅读次数:
112
windows环境变量增加一项HADOOP_USER_NAME,值为你的Linux用户名。 ...
在Windows操作系统中使用eclipse本地运行hadoop的hdfs程序, FileSystem local = FileSystem.getLocal(conf); 使用 FSDataOutputStream out = local.create(localFile); 创建本地文件输出流时 ...
Window 10 下的WSL子系统的安装可以参考之前的文章:window10 WSL子系统上设置redis开发环境 有时候,为了在window系统上进行hadoop开发和测试,可以在WSL上安装hadoop的伪分布式系统 因为子系统使用的是ubuntu 18.04,所以下面的安装以此为参考 下面是 ...
1.hadoop对hdfs集群的管理提供两种脚本 hadoop-daemons.sh 本地启动脚本:对集群中的单个节点操作 start-dfs.sh 集群启动脚本:对集群中所有节点统一操作 2.SSH免密登录(防止集群登录超时) ①生成公私钥 1 ssh-keygen -t rsa 在用户目录下有个 ...
分类:
其他好文 时间:
2020-04-15 13:41:34
阅读次数:
66
ZooKeeper是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等 ZooKeeper是一个树形结构的目录服务,支持变更推送 在ZooKeeper中,节点分为两 ...
分类:
编程语言 时间:
2020-04-15 13:38:24
阅读次数:
150
1、创建helloword.txt输入3行内容。 2、在系统中打开hadoop start-dfs.sh start-yarn.sh 3、把本地计算机中的计算机中的helloword.txt上传到服务器中 4、创建目录/user/root/filetest hdfs dfs -mkdir p /us ...
分类:
Web程序 时间:
2020-04-14 22:59:30
阅读次数:
100
一、基础 https://zhuanlan.zhihu.com/p/76905282 1、读取 2、查看 - head 3、形状 - shape 4、查看索引 index 5、查看列的全部名称 columns 6、排序 https://blog.csdn.net/MsSpark/article/de ...
分类:
其他好文 时间:
2020-04-14 12:26:27
阅读次数:
59