搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Spark学习笔记之SparkRDD

Spark学习笔记之SparkRDD一、基本概念RDD（resilient distributed datasets）弹性分布式数据集。来自于两方面① 内存集合和外部存储系统② 通过转换来自于其他RDD，如map，filter等2.创建操作（creation operation）：RDD的创建由S...

分类：其他好文时间：2015-04-18 20:29:12 阅读次数：179

Spark读取Hbase中的数据_云帆大数据分享

Spark读取Hbase中的数据大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下：1JavaRDD<Integer>myRDD=sc.parallelize(Arrays.asList(1,2,3));Scala版本如下：1valmyRDD=sc...

分类：其他好文时间：2015-04-07 20:01:18 阅读次数：285

RDD api整理

RDD[T]Transformations rdd api 备注 persist/cache map(f: T => U) keyBy(f: T => K) 特殊的map，提key flatMap(f: T => Iterable[U]) map的一种，类似UDTF filter(f: T => Boolean) map的一种 distinct(...

分类：Windows程序时间：2015-04-07 17:39:29 阅读次数：212

Spark使用总结与分享

背景使用spark开发已有几个月。相比于python/hive，scala/spark学习门槛较高。尤其记得刚开时，举步维艰，进展十分缓慢。不过谢天谢地，这段苦涩（bi）的日子过去了。忆苦思甜，为了避免项目组的其他同学走弯路，决定总结和梳理spark的使用经验。 Spark基础基石RDD spa...

分类：其他好文时间：2015-04-05 17:23:53 阅读次数：181

平易近人、兼容并蓄——Spark SQL 1.3.0概览

摘要：DataFrame API的引入一改RDD API高冷的FP姿态，令Spark变得更加平易近人。外部数据源API体现出的则是兼容并蓄，Spark SQL多元一体的结构化数据处理能力正在逐渐释放。关于作者：连城，Databricks工程师，Spark committer，Spark SQL主要开发者之一。在4月18日召开的 2015 Spark技术峰会上，连城将做名为“四两拨千斤...

分类：数据库时间：2015-04-03 19:26:28 阅读次数：322

Spark调优

因为Spark是内存当中的计算框架，集群中的任何资源都会让它处于瓶颈，CPU、内存、网络带宽。通常，内存足够的情况之下，网络带宽是瓶颈，这时我们就需要进行一些调优，比如用一种序列化的方式来存储RDD来减少内存使用，这边文章就讲两种方式，数据序列化和内存调优，接下来我们会分几个主题来谈论这个调优问题。...

分类：其他好文时间：2015-03-19 17:56:12 阅读次数：173

Spark核心—RDD初探

本文目的最近在使用Spark进行数据清理的相关工作，初次使用Spark时，遇到了一些挑（da）战（ken）。感觉需要记录点什么，才对得起自己。下面的内容主要是关于Spark核心—RDD的相关的使用经验和原理介绍，作为个人备忘，也希望对读者有用。为什么选择Spark 原因如下代码复用：使用Sca...

分类：其他好文时间：2015-03-07 21:09:45 阅读次数：281

Spark SQL

Spark SQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD，它把行对象用一个Schema来描述行里面的所有列的数据类型，它就像是关系型数据库里面的一张表。它可以从原有的RDD创建，也可以是Parquet文件，...

分类：数据库时间：2015-03-05 16:11:41 阅读次数：268

RDD常用方法之subtract&intersection&cartesian

subtractReturn an RDD with the elements from `this` that are not in `other` . def subtract(other: RDD[T]): RDD[T]def subtract(other: RDD[T], numParti....

分类：其他好文时间：2015-03-04 18:20:49 阅读次数：151

倒排索引

1.实例描述输入为一批文件，文件内容格式如下：Id1TheSpark……Id2TheHadoop……输出如下：（单词，文档ID合并字符串）TheId1Id2HadoopId2……2.设计思路先读取所有文件，数据项为(文档ID，文档词集合)的RDD，然后将数据映射为（词，文档ID）的RDD，去重，最后在reduceByKey阶..

分类：其他好文时间：2015-03-04 11:21:07 阅读次数：161

共1327条上一页 1 ... 123 124 125 126 127 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)