YARN YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分 ...
分类:
其他好文 时间:
2020-09-17 14:19:46
阅读次数:
28
当运行中出现Container is running beyond physical memory这个问题出现主要是因为物理内存不足导致的,在执行mapreduce的时候,每个map和reduce都有自己分配到内存的最大值,当map函数需要的内存大于这个值就会报这个错误,解决方法: 在mapredu ...
分类:
其他好文 时间:
2020-09-17 13:31:24
阅读次数:
39
hadoop的RPC基本概念: 1,RPC(Remote Procedure Call Protocol)--远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信 ...
分类:
其他好文 时间:
2020-09-16 12:21:20
阅读次数:
33
前几天遇到一个这样的需求:销售总占比加起来超过75%的top分类。具体需求是这样的:商品一级分类标签下面有许多商品标签,例如运动户外一级标签,下面可能存在361°,CBA,Nike,Adidas...等这些商品标签。我们需要统计在一级标签下面占总销售比超过75%的商品标签有哪些,从而让我们了解一级品... ...
分类:
其他好文 时间:
2020-09-16 12:19:01
阅读次数:
73
UDF的定义 UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了 UDF的分类 UDF:one to one,进来一个出去一个,row mapping。是row级别操作,如:upper、substr函 ...
分类:
其他好文 时间:
2020-09-16 12:06:37
阅读次数:
34
一、过程 1、修改配置文件 vim etc/hadoop/hdfs-site.xml <property> <name>dfs.datanode.data.dir</name> <value>file:///${hadoop.tmp.dir}/dfs/data1,file:///${hadoop.t ...
分类:
其他好文 时间:
2020-09-15 21:01:05
阅读次数:
37
源【1-1】如果有镜像源可以忽略此步骤一.zabbix安装 【1-1】 安 装 源【1-2】清理缓存【1-3】服务安装【1-4】修改配置二.安装数据库【2-1】下载工具【2-2】上 传 包【2-3 】 配 置三.zabbix配置【3-1】server端【3-2】agent端【3-3】补 充 四.服务... ...
分类:
其他好文 时间:
2020-09-14 19:09:47
阅读次数:
23
Flink常用算子代码实现 (Scala版本和Java版本) ...
分类:
编程语言 时间:
2020-09-11 16:15:56
阅读次数:
71
1.函数说明 主要是配合over()窗口函数来使用的,通过over(partition by order by )来反映统计值的记录。 1. rank() over()是跳跃排序,有两个第二名时接下来就是第四名(同样是在各个分组内) 2. dense_rank() over()是连续排序,有两个第二 ...
分类:
其他好文 时间:
2020-09-11 16:15:16
阅读次数:
58
一、格式 1、父类 bin/hadoop fs 命令 2、子类 bin/hdfs dfs 命令 二、命令 1、help 作用:获取帮助文档格式:hadoop fs -help 命令名称 2、ls 作用:查看HDFS路径的文件 格式: hadoop fs -ls 路径 hadoop fs -ls -R ...
分类:
系统相关 时间:
2020-09-10 23:08:31
阅读次数:
47