搜索关键字：scala bigdata 大數據 spark，搜索到10680个结果！码迷,mamicode.com！

Spark完成wordCount

Spark官方自带了WordCount的样例，我们也可以自己实现，加深对Spark的理解。 import org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit ...

分类：其他好文时间：2020-03-08 13:44:44 阅读次数：65

入门大数据---Kafka是什么？

[toc] 1. "Kafka简介" Kafka是一种计算框架，结合了之前的MapReduce批处理和流式计算为一体，可以处理历史数据和实时数据。流平台具有三个关键功能：发布和订阅记录流，类似于消息队列或企业消息传递系统。以容错的持久方式存储记录流。处理记录流。 Kafka通常用于两大类应用 ...

分类：其他好文时间：2020-03-07 21:04:52 阅读次数：77

CentOS7 安装Scala

1、下载Scala2.11$ cd /root/soft$ wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz 2、安装Scala2.11$ tar -xzvf scala-2.11.8.tgz 3、配置环境变量$ v ...

分类：其他好文时间：2020-03-06 15:19:18 阅读次数：72

Windows下安装Scala

Scala是一种类似Java的纯面向对象的函数式编程语言，由于函数具有明确的确定输入对确定输出的关系，所以适合推理和计算，一切函数都可以看成一系列的计算组成，另外由于Scala函数是没有副作用和透明的，所以非常适合做多核并行计算和云计算，现在正被越来越多的应用到生产中。 1、下载首先去官网http: ...

分类：Windows程序时间：2020-03-06 15:06:33 阅读次数：72

Delta Lake 学习

https://docs.delta.io/latest/quick-start.html Boston Spark Meetup @ Wayfair / Delta Lake: Open Source Reliability and Quality for Data Lakes ...

分类：其他好文时间：2020-03-06 10:52:06 阅读次数：57

scala正则表达式

常用语法规则 ^ 匹配输入字符串开始的位置。 $ 结尾 . 匹配除"\r\n"之外的任何单个字符。 [] 字符记 [^] 反向字符集 re* 前面的字符出现零次或多次，类似Java中的*； re+ 一次或多次，类似Java中的+； re? 零次或一次； re[n] n次 re[n,] 至少n次 re ...

分类：其他好文时间：2020-03-05 13:50:22 阅读次数：63

Spark Random Forest classifier 随机森林分类

1、概述随机森林是决策树的集合。随机森林是用于分类和回归的最成功的机器学习模型之一。他们结合了许多决策树，以减少过度拟合的风险。像决策树一样，随机森林处理分类特征，扩展到多类分类设置，不需要特征缩放，并且能够捕获非线性和特征交互。 spark.mllib支持使用连续和分类功能对二元和多类分类以及进 ...

分类：其他好文时间：2020-03-04 12:28:12 阅读次数：105

Scala的xml文件配置

<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sc ...

分类：其他好文时间：2020-03-04 00:04:07 阅读次数：89

Spark ML机器学习库评估指标示例

本文主要对 Spark ML库下模型评估指标的讲解，以下代码均以进行讲解，Spark版本为。模型评估指标位于包下。模型评估指标是指测试集的评估指标，而不是训练集的评估指标 1、回归评估指标 RegressionEvaluator Evaluator for regression, which ...

分类：其他好文时间：2020-03-03 22:38:09 阅读次数：144

CentOS 7 安装 Zookeeper + Kafka 集群

[TOC] 介绍 Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。 Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。安装集群，需要把集群状态保存在上，所以需要先安装。环境准备主机名 | 系统 | I ...

分类：其他好文时间：2020-03-03 20:52:02 阅读次数：83

共10680条上一页 1 ... 70 71 72 73 74 ... 1068 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)