搜索关键字：scala bigdata 大數據 spark，搜索到10680个结果！码迷,mamicode.com！

spark

计算圆周率 # bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --executor-memory 1G \ --total-executor-cores 2 \ ./examples/jars/spark-example ...

分类：其他好文时间：2019-11-12 23:11:45 阅读次数：113

小记--------spark-Wordcount经典案例之对结果根据词频进行倒序排序

还是以经典案例Wordcount为例：逻辑思路： 1.先把文本按空格切分成每个单词 flatMap() 2.将每个单词都转换成Tuple2类型(hello ,1) map() 3.将key相同的次数相加(hello , 5) reduceByKey() 4.将(hello , 5) 反转成(5 , ...

分类：编程语言时间：2019-11-12 00:47:45 阅读次数：85

Kafka原理详解

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流 ...

分类：其他好文时间：2019-11-11 21:47:16 阅读次数：85

flink sql

StreamTableEnvironment 该类包含sql解析、验证、优化、执行等各环节需要的元数据管理器 ,模块管理器(模块包含函数集、类型集、规则集) ，用户自定义函数管理器 ,线程池、sql解析器。 DataType 定义了逻辑类型，并且对其底层实际物理类型进行暗示。 LogicalTyp ...

分类：数据库时间：2019-11-11 18:23:01 阅读次数：112

SparkSQL极速入门整合Kudu实现广告业务数据分析

第1章课程介绍&学习指南本章会对这门课程进行说明并进行学习方法介绍。第2章为什么要学SparkSpark作为近几年最火爆的大数据处理技术，是成为大数据工程师必备的技能之一。本章节将从如下几个方面对Spark进行一个宏观上的介绍：Spark产生背景、特性、环境部署、Spark与Hadoop的对比、 ...

分类：数据库时间：2019-11-11 00:32:19 阅读次数：534

Scala 中把样例类转换成为JSON字符串

fastjson无法转换 case class 为json ...

分类：Web程序时间：2019-11-11 00:29:26 阅读次数：249

一、scala基本入门

[TOC]一、scala概述1.1简介?scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。它也能运行于CLDC配置的JavaME中。目前还有另一.NET平台的实现，不过该版本更新有些滞后。Scala的编译模型（独立编译，动态类加载）与Java和C#一样，所以Scala代码可以调用Jav

分类：其他好文时间：2019-11-10 21:10:46 阅读次数：121

hive-staging文件产生的原因和解决方案

通过spark-sql、hive-sql、hue等提交select或者insert overwrite等sql到hive时，会产生该目录，用于临时存放执行结果，比如insert overwrite会将结果暂存到该目录下，待任务结束，将结果复制到hive表中。关于该目录的生成位置策略可参考该文章：ht ...

分类：其他好文时间：2019-11-10 19:39:33 阅读次数：271

从零学scala（五）文件和正则表达式、特质

一：文件和正则表达式读取行 import scala.io.Source val lines = Source.fromFile("D://report_data2.txt","UTF-8").getLines() for( i <- lines) println(i)//遍历每一行的数据 val ...

分类：其他好文时间：2019-11-10 15:22:33 阅读次数：83

kafka速度快的原因

我们都知道Kafka非常快，比绝大多数的市场上其他消息中间件都要快。这里来研究下那么为什么Kafka那么快（当然不会是因为它用了Scala）。 Kafka的消息是保存或缓存在磁盘上的，一般认为在磁盘上读写数据是会降低性能的，因为寻址会比较消耗时间。但是实际上，Kafka其中一个特性却是高吞吐率，即 ...

分类：其他好文时间：2019-11-10 10:28:53 阅读次数：93

共10680条上一页 1 ... 127 128 129 130 131 ... 1068 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)