Spark官方自带了WordCount的样例,我们也可以自己实现,加深对Spark的理解。 import org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit ...
分类:
其他好文 时间:
2020-03-08 13:44:44
阅读次数:
65
[toc] 1. "Kafka简介" Kafka是一种计算框架,结合了之前的MapReduce批处理和流式计算为一体,可以处理历史数据和实时数据。 流平台具有三个关键功能: 发布和订阅记录流,类似于消息队列或企业消息传递系统。 以容错的持久方式存储记录流。 处理记录流。 Kafka通常用于两大类应用 ...
分类:
其他好文 时间:
2020-03-07 21:04:52
阅读次数:
77
1、下载Scala2.11$ cd /root/soft$ wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz 2、安装Scala2.11$ tar -xzvf scala-2.11.8.tgz 3、配置环境变量$ v ...
分类:
其他好文 时间:
2020-03-06 15:19:18
阅读次数:
72
Scala是一种类似Java的纯面向对象的函数式编程语言,由于函数具有明确的确定输入对确定输出的关系,所以适合推理和计算,一切函数都可以看成一系列的计算组成,另外由于Scala函数是没有副作用和透明的,所以非常适合做多核并行计算和云计算,现在正被越来越多的应用到生产中。 1、下载首先去官网http: ...
https://docs.delta.io/latest/quick-start.html Boston Spark Meetup @ Wayfair / Delta Lake: Open Source Reliability and Quality for Data Lakes ...
分类:
其他好文 时间:
2020-03-06 10:52:06
阅读次数:
57
常用语法规则 ^ 匹配输入字符串开始的位置。 $ 结尾 . 匹配除"\r\n"之外的任何单个字符。 [] 字符记 [^] 反向字符集 re* 前面的字符出现零次或多次,类似Java中的*; re+ 一次或多次,类似Java中的+; re? 零次或一次; re[n] n次 re[n,] 至少n次 re ...
分类:
其他好文 时间:
2020-03-05 13:50:22
阅读次数:
63
1、概述 随机森林是决策树的集合。随机森林是用于分类和回归的最成功的机器学习模型之一。他们结合了许多决策树,以减少过度拟合的风险。像决策树一样,随机森林处理分类特征,扩展到多类分类设置,不需要特征缩放,并且能够捕获非线性和特征交互。 spark.mllib支持使用连续和分类功能对二元和多类分类以及进 ...
分类:
其他好文 时间:
2020-03-04 12:28:12
阅读次数:
105
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sc ...
分类:
其他好文 时间:
2020-03-04 00:04:07
阅读次数:
89
本文主要对 Spark ML库下模型评估指标的讲解,以下代码均以 进行讲解,Spark版本为 。模型评估指标位于包 下。 模型评估指标是指测试集的评估指标,而不是训练集的评估指标 1、回归评估指标 RegressionEvaluator Evaluator for regression, which ...
分类:
其他好文 时间:
2020-03-03 22:38:09
阅读次数:
144
[TOC] 介绍 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。 Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 安装 集群,需要把集群状态保存在 上,所以需要先安装 。 环境准备 主机名 | 系统 | I ...
分类:
其他好文 时间:
2020-03-03 20:52:02
阅读次数:
83