码迷,mamicode.com
首页 >  
搜索关键字:spark rdd    ( 7287个结果
事件时间(event time)与水印(watermark)
1. 事件时间和水印诞生的背景 在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响 比如:某数据源中的某些数据由于某种原因(如:网络原因,外部存储自身原因)会有2秒的延时,也就是在实际时间的第1秒产生的数据有可能在第3秒中产生的数据之后到来。 假设在一个5秒的滚动窗口中,有一个Eve ...
分类:其他好文   时间:2019-11-13 14:44:46    阅读次数:94
刚学spark
https://blog.csdn.net/u013019431/article/details/80776662 在jupyter notebook import pysparkhttps://www.douban.com/note/504421303/ 如何初始化 https://blog.cs ...
分类:其他好文   时间:2019-11-13 14:41:33    阅读次数:85
spark
计算圆周率 # bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --executor-memory 1G \ --total-executor-cores 2 \ ./examples/jars/spark-example ...
分类:其他好文   时间:2019-11-12 23:11:45    阅读次数:113
小记--------spark-Wordcount经典案例之对结果根据词频进行倒序排序
还是以经典案例Wordcount为例: 逻辑思路: 1.先把文本按空格切分成每个单词 flatMap() 2.将每个单词都转换成Tuple2类型(hello ,1) map() 3.将key相同的次数相加(hello , 5) reduceByKey() 4.将(hello , 5) 反转成(5 , ...
分类:编程语言   时间:2019-11-12 00:47:45    阅读次数:85
Kafka原理详解
Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流 ...
分类:其他好文   时间:2019-11-11 21:47:16    阅读次数:85
SparkSQL极速入门 整合Kudu实现广告业务数据分析
第1章 课程介绍&学习指南本章会对这门课程进行说明并进行学习方法介绍。第2章 为什么要学SparkSpark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一。本章节将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景、特性、环境部署、Spark与Hadoop的对比、 ...
分类:数据库   时间:2019-11-11 00:32:19    阅读次数:534
hive-staging文件产生的原因和解决方案
通过spark-sql、hive-sql、hue等提交select或者insert overwrite等sql到hive时,会产生该目录,用于临时存放执行结果,比如insert overwrite会将结果暂存到该目录下,待任务结束,将结果复制到hive表中。关于该目录的生成位置策略可参考该文章:ht ...
分类:其他好文   时间:2019-11-10 19:39:33    阅读次数:271
Spark3.0 preview预览版尝试GPU调用(本地模式不支持GPU)
Spark3.0 preview预览版可以下载使用,地址:https://archive.apache.org/dist/spark/spark-3.0.0-preview/,pom.xml也可以进行引用,如下: 注意:目前阿里云镜像部分包还没有(2019年11月10日,spark-launcher ...
分类:其他好文   时间:2019-11-10 09:25:19    阅读次数:163
SparkSQL
Spark SQL 增加了DataFrame 即带有Schema信息的RDD DataFrame 创建 启动pyspark(由于内存不够 启动本地,模式) pyspark --master local pyspark 自动生成 sc,sparksession from pyspark import ...
分类:数据库   时间:2019-11-09 22:07:07    阅读次数:95
25.Spark下载源码和安装和使用
安装scala 上传安装包 解压 配置scala相关的环境变量 验证scala安装是否成功 把scala分发给node2 node3 node4 分别给node2 node3 node4配置scala的环境变量,并使其生效 spark安装包下载地址:https://archive.apache.or ...
分类:其他好文   时间:2019-11-09 19:51:52    阅读次数:84
7287条   上一页 1 ... 92 93 94 95 96 ... 729 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!