换了几个开发环境,每次都会遇到sparksql连不上元数据的情况,整理一下脱坑吧。。。。。 进入主题: 首先说一下几个文件吧,这些是我遇到的几个问题的解决方法,有可能你并不适用,仅供参考。 1、配置文件放在resources下面 2、下载hadoop-common-2.2.0-bin-master ...
分类:
数据库 时间:
2020-05-14 11:27:02
阅读次数:
101
作为一个JVM进程,EXecutor的内存管理建立在JVM的内存管理之上,Spark对JVM的对内空间进行了更为详细的分配,以充分利用内存。同时,Spark引入了堆外内存,使之可以直接在工作节点的系统内存中开辟空间,进一步优化内存的使用。 堆内内存收到JVM统一管理,堆外内存是直接向操作系统进行内存 ...
分类:
其他好文 时间:
2020-05-13 23:30:58
阅读次数:
71
1.WordCount程序任务 输入:一个包含大量单词的文本文件 输出:文件中没个单词及出现的次数(频数),并按照单词顺序排序每个单词和其频数占一行,单词和频数之间有间隔 2.WordCount程序设计思路 WordCount可以使用MapReduce去做 在/usr/local/目录下创建Word ...
分类:
其他好文 时间:
2020-05-13 19:46:40
阅读次数:
77
https://www.bilibili.com/video/av83930526/ https://blog.csdn.net/yuanbingze/article/details/51891222 ...
分类:
其他好文 时间:
2020-05-13 12:28:00
阅读次数:
56
一个模式匹配包含了一系列备选项,每个都开始于关键字 case。每个备选项都包含了一个模式及一到多个表达式。箭头符号 => 隔开了模式和表达式。 1. package scalaprogram.May07 import scala.util.Random //模式匹配 升级版的switch语句 obj ...
分类:
其他好文 时间:
2020-05-12 20:19:21
阅读次数:
59
在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) 如果同样的数据都给到这三个数据结构 ...
分类:
其他好文 时间:
2020-05-12 17:13:48
阅读次数:
220
Hadoop_Liang 2019-06-14 23:08:05 2846 收藏 4展开问题:Ubuntu在更新软件源时,出现E: Could not get lock /var/lib/apt/lists/lock问题 $ sudo apt-get update Reading package l ...
分类:
其他好文 时间:
2020-05-12 16:49:53
阅读次数:
131
大数据第十一周 1.物理集群的验证 开启本组所有电脑(4台),拷贝虚拟机映像,打开。在开启虚拟机之前,设置虚拟机内存是4G,处理器是4,网络连接是桥接模式。 ? 也可以在图形界面配 ? 把桥接网卡绑定到具体的物理网卡,不要使用自动绑定。 设置完成后,启动寻虚拟机。 ? 2.设置网络连接 编辑网络配置 ...
分类:
其他好文 时间:
2020-05-12 13:46:49
阅读次数:
67
public static Map<String,String> loadDataFromFile() { Map<String,String> map = new ConcurrentHashMap<>(); try { File file = new File("filename.txt"); ...
分类:
其他好文 时间:
2020-05-12 11:45:24
阅读次数:
82
Job的划分 1、Application : 应用,创建一个SparkContext可以认为创建了一个Application 2、Job 在一个app中每执行一次行动算子 就会创建一个Job,一个application会有多个job 3、stage 阶段,每碰到一个shuffle算子,会产生一个新的 ...
分类:
其他好文 时间:
2020-05-11 23:56:54
阅读次数:
213