1 package com.bawei.review01 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.sql.{DataFrame, SparkSession} 5 6 case class StuScore(id:In ...
分类:
其他好文 时间:
2020-05-05 17:49:28
阅读次数:
54
首先,在路由页面,引入了一个组件。RouteDemo <BrowserRouter> {/* 没通过 <Route /> 匹配路由的 默认拿不到history的*/} <RouteDemo /> <Switch> <Route path='/table' component={TableDemo}/ ...
分类:
其他好文 时间:
2020-05-05 12:48:39
阅读次数:
160
Spark Job log 文件分析: 下面是一个Spark 数据据统计Job 的 log 文件, 从前到后的顺序分析Job的执行过程(Spark local mode)。 启动 SparkContext 提交 Job RatingHistogram 20/05/04 18:02:20 INFO S ...
分类:
其他好文 时间:
2020-05-05 09:12:49
阅读次数:
103
vue h vue create learn vue ? Manually select features 选择下面的组件(空格为选中/取消)回车确认 使用 history mode 使用node sass 使用ESLint + Airbnb config 保存时检查代码 配置文件保存在单独的文件中 ...
分类:
其他好文 时间:
2020-05-05 00:42:39
阅读次数:
120
一、关于UI地址 master: 8080 worker: 8081 application: 4040 (用来查看正在运行的app的情况, 一旦这个应用结束, 则无法查看) 二、历史服务器(这里说明yarn模式) 1、 配置历史服务器 1)spark-defaults.conf 默认配置 spar ...
分类:
其他好文 时间:
2020-05-05 00:33:46
阅读次数:
60
问题 为防止因为虚拟机内存过少,进程被杀死,需要关闭yarn的内存检测 yarn-site.xml <!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true --> <property> <name>yarn.nodemanager.pmem-che ...
分类:
其他好文 时间:
2020-05-04 21:34:02
阅读次数:
99
一、共性 1.1、RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说,一个 RDD 就是你的数据的一个不可变的分布式元素集合,在集群中跨节点分布,可以通过若干提供了转换和处理的底层 API 进行并行处理。关于RDD的详细介绍可以参考这篇文章:https://www ...
分类:
其他好文 时间:
2020-05-04 17:33:48
阅读次数:
56
1.ifconfig查看网卡配置2.uname-alinux服务器,主机名称,内核版本信息,系统打包时间,X86架构64位系统3.uptime查看系统主要负载(top命令第一行)系统时间,已开机时间,终端数量,cpu负载值(1分钟。5分钟。15分钟)4.free查看系统内存使用情况5.who查看正在运行的终端6.last查看系统登录记录(仅做参考,可被修改)7.history查看命令历史输入!+命
分类:
系统相关 时间:
2020-05-04 09:18:07
阅读次数:
75
1、分布式 2、基于内存 3、迭代式计算 每一批节点上的每一批数据就是一个RDD RDD是spark的核心抽象 1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的 ...
分类:
其他好文 时间:
2020-05-03 20:41:36
阅读次数:
61