码迷,mamicode.com
首页 >  
搜索关键字:scala bigdata 大數據 spark    ( 10680个结果
spark
计算圆周率 # bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --executor-memory 1G \ --total-executor-cores 2 \ ./examples/jars/spark-example ...
分类:其他好文   时间:2019-11-12 23:11:45    阅读次数:113
小记--------spark-Wordcount经典案例之对结果根据词频进行倒序排序
还是以经典案例Wordcount为例: 逻辑思路: 1.先把文本按空格切分成每个单词 flatMap() 2.将每个单词都转换成Tuple2类型(hello ,1) map() 3.将key相同的次数相加(hello , 5) reduceByKey() 4.将(hello , 5) 反转成(5 , ...
分类:编程语言   时间:2019-11-12 00:47:45    阅读次数:85
Kafka原理详解
Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流 ...
分类:其他好文   时间:2019-11-11 21:47:16    阅读次数:85
flink sql
StreamTableEnvironment 该类包含sql解析、验证、优化、执行等各环节需要的元数据管理器 ,模块管理器(模块包含函数集、类型集、规则集) ,用户自定义函数管理器 ,线程池、sql解析器 。 DataType 定义了逻辑类型,并且对其底层实际物理类型进行暗示。 LogicalTyp ...
分类:数据库   时间:2019-11-11 18:23:01    阅读次数:112
SparkSQL极速入门 整合Kudu实现广告业务数据分析
第1章 课程介绍&学习指南本章会对这门课程进行说明并进行学习方法介绍。第2章 为什么要学SparkSpark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一。本章节将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景、特性、环境部署、Spark与Hadoop的对比、 ...
分类:数据库   时间:2019-11-11 00:32:19    阅读次数:534
Scala 中把 样例类转换成为JSON字符串
fastjson无法转换 case class 为json ...
分类:Web程序   时间:2019-11-11 00:29:26    阅读次数:249
一、scala基本入门
[TOC]一、scala概述1.1简介?scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。它也能运行于CLDC配置的JavaME中。目前还有另一.NET平台的实现,不过该版本更新有些滞后。Scala的编译模型(独立编译,动态类加载)与Java和C#一样,所以Scala代码可以调用Jav
分类:其他好文   时间:2019-11-10 21:10:46    阅读次数:121
hive-staging文件产生的原因和解决方案
通过spark-sql、hive-sql、hue等提交select或者insert overwrite等sql到hive时,会产生该目录,用于临时存放执行结果,比如insert overwrite会将结果暂存到该目录下,待任务结束,将结果复制到hive表中。关于该目录的生成位置策略可参考该文章:ht ...
分类:其他好文   时间:2019-11-10 19:39:33    阅读次数:271
从零学scala(五)文件和正则表达式、特质
一:文件和正则表达式 读取行 import scala.io.Source val lines = Source.fromFile("D://report_data2.txt","UTF-8").getLines() for( i <- lines) println(i)//遍历每一行的数据 val ...
分类:其他好文   时间:2019-11-10 15:22:33    阅读次数:83
kafka速度快的原因
我们都知道Kafka非常快,比绝大多数的市场上其他消息中间件都要快。这里来研究下那么为什么Kafka那么快(当然不会是因为它用了Scala)。 Kafka的消息是保存或缓存在磁盘上的,一般认为在磁盘上读写数据是会降低性能的,因为寻址会比较消耗时间。 但是实际上,Kafka其中一个特性却是高吞吐率,即 ...
分类:其他好文   时间:2019-11-10 10:28:53    阅读次数:93
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!