Spark 分组取Top N运算 大数据处理中,对数据分组后,取TopN是非常常见的运算。 下面我们以一个例子来展示spark如何进行分组取Top的运算。 1、RDD方法分组取TopN from pyspark import SparkContext sc = SparkContext() 准备数据 ...
分类:
其他好文 时间:
2020-07-06 16:11:05
阅读次数:
78
哈希表又叫散列表,这里用数组和链表实现 package com.atguigu.datastructures.hashtable import scala.util.control.Breaks._ object HashTableDemo { def main(args: Array[String ...
分类:
其他好文 时间:
2020-07-05 23:13:41
阅读次数:
64
构建二叉树;实现前序、中序、后序遍历;两种删除节点的原则 package com.atguigu.datastructures.binarytree object BinaryTreeDemo { def main(args: Array[String]): Unit = { //先使用比较简单的方 ...
分类:
其他好文 时间:
2020-07-05 23:04:02
阅读次数:
76
?大数据的概念 大数据 (BigData) :指无法在一 定时间范围内用常规软件 工具进行捕捉、 管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 主要解决,海量数据的存储和海量数据的分析计算问题。 大数据特点 大量、高速、多样 ...
分类:
其他好文 时间:
2020-07-05 19:03:04
阅读次数:
87
下面安装的六步和通过Maven安装Java项目的方式相同 如果刚安装完IDEA,直接点击[Create New Project] 左侧选择Maven,然后先勾选上部的[Create from archetype],然后右侧选择[maven-archetype-quickstart] 填写GroupI ...
分类:
其他好文 时间:
2020-07-05 19:02:22
阅读次数:
90
DAG : 整个计算链可以抽象为一个DAG(有向无环图) Spark 的 DAG 作用: 记录了RDD之间的依赖关系,即RDD是通过何种变换生成的, 如下图:RDD1是RDD2的父RDD,通过flatMap操作生成 借助RDD之间的依赖关系,可以实现数据的容错, 即子分区(子RDD)数据丢失后,可以 ...
分类:
其他好文 时间:
2020-07-05 17:29:07
阅读次数:
56
scala下载地址:https://www.scala-lang.org/download/ scala插件离线下载地址:https://plugins.jetbrains.com/plugin/1347-scala 注意点: IDEA 不直接支持Scala语言开发,要下载对应的scala的插件才可 ...
分类:
其他好文 时间:
2020-07-05 17:21:34
阅读次数:
73
RDD概述 RDD:弹性分布式数据集,初学时,可以把RDD看做是一种集合类型(和Array,List类比) RDD的特点: ①有容错性,即数据丢失是可以恢复的 ②有分区机制,可以并行的处理RDD数据 创建RDD的2种方式: ①将一个普通的集合类型(Array或List) ②通过Spark读取外部存储 ...
分类:
其他好文 时间:
2020-07-05 15:15:06
阅读次数:
66
环境 Notebook docker环境 https://registry.hub.docker.com/r/jupyter/datascience-notebook/ 下载安装包 spark安装包 http://mirror.bit.edu.cn/apache/spark/spark-3.0.0/ ...
分类:
其他好文 时间:
2020-07-04 18:29:02
阅读次数:
83
启动kafka时,kafka进程无法启动,查阅log发现存在如下问题: 2020-07-04 10:44:54,659] ERROR Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServ ...
分类:
其他好文 时间:
2020-07-04 15:27:07
阅读次数:
53