搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Spark LDA 实例

SparkLDA实例一、准备数据数据格式为：documents:RDD[(Long,Vector)]，其中：Long为文章ID，Vector为文章分词后的词向量；通过分词以及数据格式的转换，转换成RDD[(Long,Vector)]即可。二、建立模型importorg.apache.spark.mllib.clustering._valldaOptimizer=newOnlineLDAOptimi

分类：其他好文时间：2019-02-12 15:56:42 阅读次数：344

e'e

#!/bin/env python # -*- coding: utf-8 -*- import sys if sys.platform == 'linux': sys.path.append('/opt/huawei/kg/appspace/cloudword') from flask impor ...

分类：其他好文时间：2019-02-03 14:24:48 阅读次数：209

Spark大型电商项目实战-及其改良(1) 比对sparkSQL和纯RDD实现的结果

代码存在码云:https://coding.net/u/funcfans/p/sparkProject/git 代码主要学习https://blog.csdn.net/u012318074/article/category/6744423/1这里的发现样例作为正式项目来说效率太低了,为了知识点而知 ...

分类：数据库时间：2019-01-29 18:14:01 阅读次数：388

Spark——DataFrame与RDD互操作方式

一.引言 Spark SQL支持两种不同的方法将现有RDD转换为数据集。 1.第一种方法使用反射来推断包含特定类型对象的RDD的模式。这种基于反射的方法可以使代码更简洁，并且在编写Spark应用程序时已经了解了模式，因此可以很好地工作。详细资料参考 DataFrame与RDD互操作之反射在开始之前 ...

分类：其他好文时间：2019-01-25 11:40:06 阅读次数：189

一分钟了解spark的调优

Tuning Spark 数据序列化内存调优内存管理概述确定内存消耗调整数据结构序列化 RDD 存储垃圾收集调整其他注意事项并行度水平减少任务的内存使用广播大的变量数据本地化概要内存管理概述确定内存消耗调整数据结构序列化 RDD 存储垃圾收集调整并行度水平减少任 ...

分类：其他好文时间：2019-01-24 11:06:06 阅读次数：171

Spark 编程模型(中)

创建RDD 方式一：从集合创建RDD ● makeRDD ● Parallelize 注意：makeRDD可以指定每个分区perferredLocations参数parallelize则没有。方式二：读取外部存储创建RDD Spark与Hadoop完全兼容，所以对Hadoop所支持的文件类型或者数 ...

分类：其他好文时间：2019-01-21 16:08:36 阅读次数：162

Spark 编程模型(下)

创建Pair RDD 什么是Pair RDD ● 包含键值对类型的RDD被称作Pair RDD ● Pair RDD通常用来进行聚合计算 ● Pair RDD通常由普通RDD做ETL转换而来创建Pair RDD ● Python:pairs = lines.map(lambda x: (x.spl ...

分类：其他好文时间：2019-01-21 16:05:29 阅读次数：183

【51CTO微职位】-大数据高级工程师2018年学习总结及2019年学习规划

【51CTO微职位】-大数据高级工程师2018年学习总结及2019年学习规划，零基础小白的学习总结。

分类：其他好文时间：2019-01-21 16:01:01 阅读次数：210

SparkRDD未持久化——持久化

RDD的持久化策略: cache、persist、checkpoint三种策略（持久化的单位是partition） 1、cache是persist的一个简化版，会将rdd中的数据持久化到内存中 cache = persists（StorageLevel.MEMORY_ONLY）不进行序列化特点： ...

分类：其他好文时间：2019-01-20 18:56:55 阅读次数：212

Spark:RDD的设计与运行原理

# Spark:RDD的设计与运行原理 ## 1.RDD设计背景在实际应用中，存在许多迭代式算法和家忽视数据挖掘工具，这些应用场景的共同之处是，不同计算阶段之间会重用中间结果，即下一个阶段的输出结果会作为下一个阶段的输入。但是，目前的MapReduce框架都是把中间结果写入到HDFS中，带来了大量的 ...

分类：其他好文时间：2019-01-18 16:32:24 阅读次数：226

共1327条上一页 1 ... 39 40 41 42 43 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)