码迷,mamicode.com
首页 >  
搜索关键字:ambari hadoop hbase hive spark    ( 26003个结果
RDD和DataFrame和DataSet三者间的区别
在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) 如果同样的数据都给到这三个数据结构 ...
分类:其他好文   时间:2020-05-12 17:13:48    阅读次数:220
apt-get update 出现E: Could not get lock /var/lib/apt/lists/lock问题的解决
Hadoop_Liang 2019-06-14 23:08:05 2846 收藏 4展开问题:Ubuntu在更新软件源时,出现E: Could not get lock /var/lib/apt/lists/lock问题 $ sudo apt-get update Reading package l ...
分类:其他好文   时间:2020-05-12 16:49:53    阅读次数:131
大数据Hadoop第十一周——四台电脑的集群配置
大数据第十一周 1.物理集群的验证 开启本组所有电脑(4台),拷贝虚拟机映像,打开。在开启虚拟机之前,设置虚拟机内存是4G,处理器是4,网络连接是桥接模式。 ? 也可以在图形界面配 ? 把桥接网卡绑定到具体的物理网卡,不要使用自动绑定。 设置完成后,启动寻虚拟机。 ? 2.设置网络连接 编辑网络配置 ...
分类:其他好文   时间:2020-05-12 13:46:49    阅读次数:67
navicat premium15免费版安装说明(附工具)
@[toc] 所在公司目前使用的数据库主要是mysql 和hive, 所以选择的数据库客户端工具是sqlYog和xshell了。但是最近一个可视化系统需要支持配置多数据源,包括mysql,orcale,sqlServer,这就有个问题sqlYog连不了oracle 和sqlServer。然后不得不换 ...
分类:其他好文   时间:2020-05-12 13:36:19    阅读次数:102
spark之从外部文件获取广播变量
public static Map<String,String> loadDataFromFile() { Map<String,String> map = new ConcurrentHashMap<>(); try { File file = new File("filename.txt"); ...
分类:其他好文   时间:2020-05-12 11:45:24    阅读次数:82
Spark的Job的划分
Job的划分 1、Application : 应用,创建一个SparkContext可以认为创建了一个Application 2、Job 在一个app中每执行一次行动算子 就会创建一个Job,一个application会有多个job 3、stage 阶段,每碰到一个shuffle算子,会产生一个新的 ...
分类:其他好文   时间:2020-05-11 23:56:54    阅读次数:213
Spark性能优化指南——高级篇
Spark性能优化指南——高级篇 2016年05月12日 作者: 李雪蕤 文章链接 23095字 47分钟阅读 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 ...
分类:其他好文   时间:2020-05-11 23:20:20    阅读次数:91
Linux的一些问题的处理(重要目录,/配置静态IP/主机名/hosts映射)
Linux重要目录 Linux目录一切从根开始.且一切都是文件 | 目录 | 说明 | | : : | : : | | / | 根目录 | | /bin | 存放Linux的常用命令 | | /root | 是root用户的主目录/家目录 | | /home | 存放普通用户的主目录 | | /et ...
分类:系统相关   时间:2020-05-11 19:04:50    阅读次数:73
Spark内核源码继续五:Master原理解析和源码解析
上篇已经降到AppClient找Master进行注册,本章主要解析Master的原理和源码解析 1、Master的主备切换原理 package org.apache.spark.deploy.master completeRecovery,过滤没有响应的worker,app,drivers,从内存缓 ...
分类:其他好文   时间:2020-05-11 15:54:04    阅读次数:62
系统监控工具--Tsar
一、介绍 Tsar是阿里巴巴开源的一个用来收集服务器系统和应用信息的采集报告工具,如收集服务器的系统信息(cpu,mem等),以及应用数据(nginx、haproxy等),收集到的数据存储在服务器磁盘上,可以随时查询历史信息,也可以将数据发送到nagios报警。Tsar能够比较方便的增加模块,只需要 ...
分类:其他好文   时间:2020-05-11 15:20:31    阅读次数:65
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!