码迷,mamicode.com
首页 >  
搜索关键字:spark rdd    ( 7287个结果
Spark之RDD的定义及五大特性
RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,能横跨集群所有节点并行计算,是一种基于工作集的应用抽象。 RDD底层存储原理:其数据分布存储于多台机器上,事实上,每个RDD的数据都以Block的形式存储于多台机器上,每个Executor会启动一个Blo ...
分类:其他好文   时间:2019-11-09 19:19:31    阅读次数:127
5.4 RDD编程---综合案例
一、求top值 二、求最大最小值 三、文件排序 四、二次排序 五、连接操作 ...
分类:其他好文   时间:2019-11-09 17:50:20    阅读次数:76
windows下jdk、hadoop、Scala、Spark的调试环境配置(jdk路径的空格问题, /tmp/hive on HDFS should be writable问题)
1、首先是jdk的路径问题 为了和以后出现的hadoop,spark出现 路径带有空格导致 调用失败的情况, 直接把 jdk的路径 剪切到 没有空格的目录下。 D:\>echo %JAVA_HOME% C:\Java\jdk1.8.0_202 到这里,在cmd下,能 看到 scala -versio ...
分类:Windows程序   时间:2019-11-08 23:52:32    阅读次数:135
idea连接spark集群报错解析:Caused by: java.lang.ClassCastException
cannot assign instance of scala.collection.immutable.List$SerializationProxy to field org.apache.spark.sql.execution.aggregate.SortAggregateExec.aggre ...
分类:编程语言   时间:2019-11-07 17:41:34    阅读次数:113
在线公开课 | 京东云监控系统设计及落地之路
谈运维为什么离不开监控?典型监控系统一般是如何设计的?业务驱动的高可用监控系统又有何不同?作为巨头之一的电商平台京东, 其基于京东云的监控系统是否有值得借鉴的地方?本文将解答这些问题。本文整理自 10 月 30 日由京东云开发者社区和英特尔联合举办的在线公开课,京东云工具产品研发部专家架构师颜志杰的 ...
分类:其他好文   时间:2019-11-07 15:08:01    阅读次数:97
5.2 键值对RDD
一、键值对RDD的创建 1.从文件中加载 2.通过并行集合(数组)创建RDD 二、常用的键值对RDD转换操作 三、综合实例 ...
分类:其他好文   时间:2019-11-07 15:01:15    阅读次数:64
JDBC的ResultSet游标转spark的DataFrame,数据类型的映射以TeraData数据库为例
使用场景: 在一些情况下,我们需要保持一个与数据库连接的connection,在没有写物理表权限或者没有必要写物理表时的现实场景用临时表替代物理表进行操作,临时表很多是基于Session的,Seesion间不能相互访问,断开后临时表自动清空,而spark自带的,read.format("jdbc")... ...
分类:数据库   时间:2019-11-06 10:23:44    阅读次数:277
Spark02
1. RDD是什么? 官方定义: 不可变(immutable):RDD集合类似于Scala中不可变的集合,例如List,当对集合中的元素进行转换操作时,产生新的集合RDD 分区的(Partitioned):每个RDD集由有多个分区组成,分区就是很多部分。 并行操作(Parallel):对RDD集合操 ...
分类:其他好文   时间:2019-11-06 01:16:40    阅读次数:73
流数据
特征: 持续到达,数据量大,注重数据整体价值,数据顺序可能颠倒,丢失,实时计算, 海量,分布,实时,快速部署,可靠 linked in Kafka spark streaming:微小批处理,模拟流计算,秒级响应 DStream 一系列RDD 的集合 支持批处理 创建文件流 10代表每10s启动一次 ...
分类:其他好文   时间:2019-11-05 18:49:38    阅读次数:98
spark过滤算子+StringIndexer算子出发的一个逻辑bug
问题描述: 在一段spark机器学习的程序中,同时用到了Filter算子和StringIndexer算子,其中StringIndexer在前,filter在后,并且filter是对stringindexer的输出列设置了过滤条件,filter算子之后将数据集灌到随机森林中(试过决策树分类和逻辑回归同 ...
分类:其他好文   时间:2019-11-05 13:16:49    阅读次数:96
7287条   上一页 1 ... 93 94 95 96 97 ... 729 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!