错误思想 举个列子,当我们想要比较 一个 类型为 RDD[(Long, (String, Int))] 的RDD,让它先按Long分组,然后按int的值进行倒序排序,最容易想到的思维就是先分组,然后把Iterable 转换为 list,然后sortby,但是这样却有一个致命的缺点,就是Iterabl ...
分类:
编程语言 时间:
2020-05-18 20:48:21
阅读次数:
83
1. 4种运行模式概述图 1)本地(local)模式,用于开发测试 2)Standalone是Spark自带的,如果一个集群是Standalone的话,那么就需要在多台机器上同时部署spark环境,只要修改一台机器配置,就要同步到所有的机器上去,比较麻烦,生产环境中不采取。 3) Yarn生成环境下 ...
分类:
其他好文 时间:
2020-05-18 18:12:35
阅读次数:
67
## java最新面试题2020# 一面 1. “Spark还有Ruby啊,会的挺多,既然你啥都会点咱们就不局限于Java了”2. 聊了聊美团实习的项目,聊到了Spark,然后说到了Spark相对于MapReduce的改进,然后3. “Spark熟吗”4. “那你这个需求怎么做的”5. “那咱们就从... ...
分类:
编程语言 时间:
2020-05-18 14:31:41
阅读次数:
162
scala基础 安装scala(不推荐使用最新版本,2.11.x够用了) "scala官网" "2.11.12版本下载页面" 这里我选择2.11.12版本,在下载页面往下拉,选择scala 2.11.12.msi(windows用户),msi安装比较简单,一直点点就行。如果下载速度慢,建议用迅雷。 ...
分类:
其他好文 时间:
2020-05-18 00:45:02
阅读次数:
74
distinct的底层使用reducebykey巧妙实现去重逻辑 //使用reduceByKey或者groupbykey的shuffle去重思想rdd.map(key=>(key,null)).reduceByKey((key,value)=>key) .map(_._1) ...
分类:
其他好文 时间:
2020-05-17 19:29:13
阅读次数:
147
网络爬虫 一.基本概念 一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 1.1 网络爬虫分类 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络 ...
分类:
编程语言 时间:
2020-05-17 19:09:00
阅读次数:
100
Apache Spark Job 调优以提高性能(一) 假设你已经清楚了Spark 的 RDD 转换,Action 等内容。并且已经知道用web UI来理解为什么Job要花这么长时间时,Job、stage和task 也很清楚了。 如果不清楚可以看我的视频(。。。。) 在本文中,您将了解Spark程序 ...
分类:
其他好文 时间:
2020-05-17 17:50:13
阅读次数:
102
这里选择用数组实现,为了队列可以复用,选择环形数组实现 import scala.io.StdIn object CircleArrayQueue { def main(args: Array[String]): Unit = { val queue = new ArrayQueue2(3) //菜 ...
分类:
其他好文 时间:
2020-05-17 11:47:48
阅读次数:
62
最近spark上机练习比较多,原先采用了虚拟机的方式做练习 第一机器性能比较差,本地体验不好 第二用vscode比较多,轻量好用又熟悉 所以周末抽时间把环境布到开发机上去 构建流程: 安装vscode 安装msys2/mingw等模拟shell环境,安装ssh相关组件 这个可以偷个懒直接装 git ...
分类:
其他好文 时间:
2020-05-16 18:39:35
阅读次数:
133
变量声明基本语法 var | val 变量名 [: 变量类型] = 变量值 注意事项: 声明变量时,类型可以省略(编译器自动推导,即类型推导) 类型确定后,就不能修改,说明Scala 是强数据类型语言. 在声明/定义一个变量时,可以使用var 或者 val 来修饰, var 修饰的变量可改变,val ...
分类:
其他好文 时间:
2020-05-16 00:49:37
阅读次数:
63