码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark LDA 实例
SparkLDA实例一、准备数据数据格式为:documents:RDD[(Long,Vector)],其中:Long为文章ID,Vector为文章分词后的词向量;通过分词以及数据格式的转换,转换成RDD[(Long,Vector)]即可。二、建立模型importorg.apache.spark.mllib.clustering._valldaOptimizer=newOnlineLDAOptimi
分类:其他好文   时间:2019-02-12 15:56:42    阅读次数:344
e'e
#!/bin/env python # -*- coding: utf-8 -*- import sys if sys.platform == 'linux': sys.path.append('/opt/huawei/kg/appspace/cloudword') from flask impor ...
分类:其他好文   时间:2019-02-03 14:24:48    阅读次数:209
Spark大型电商项目实战-及其改良(1) 比对sparkSQL和纯RDD实现的结果
代码存在码云:https://coding.net/u/funcfans/p/sparkProject/git 代码主要学习https://blog.csdn.net/u012318074/article/category/6744423/1这里的 发现样例作为正式项目来说效率太低了,为了知识点而知 ...
分类:数据库   时间:2019-01-29 18:14:01    阅读次数:388
Spark——DataFrame与RDD互操作方式
一.引言 Spark SQL支持两种不同的方法将现有RDD转换为数据集。 1.第一种方法使用反射来推断包含特定类型对象的RDD的模式。这种基于反射的方法可以使代码更简洁,并且在编写Spark应用程序时已经了解了模式,因此可以很好地工作。详细资料参考 DataFrame与RDD互操作之反射 在开始之前 ...
分类:其他好文   时间:2019-01-25 11:40:06    阅读次数:189
一分钟了解spark的调优
Tuning Spark 数据序列化 内存调优 内存管理概述 确定内存消耗 调整数据结构 序列化 RDD 存储 垃圾收集调整 其他注意事项 并行度水平 减少任务的内存使用 广播大的变量 数据本地化 概要 内存管理概述 确定内存消耗 调整数据结构 序列化 RDD 存储 垃圾收集调整 并行度水平 减少任 ...
分类:其他好文   时间:2019-01-24 11:06:06    阅读次数:171
Spark 编程模型(中)
创建RDD 方式一:从集合创建RDD ● makeRDD ● Parallelize 注意:makeRDD可以指定每个分区perferredLocations参数parallelize则没有。 方式二:读取外部存储创建RDD Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数 ...
分类:其他好文   时间:2019-01-21 16:08:36    阅读次数:162
Spark 编程模型(下)
创建Pair RDD 什么是Pair RDD ● 包含键值对类型的RDD被称作Pair RDD ● Pair RDD通常用来进行聚合计算 ● Pair RDD通常由普通RDD做ETL转换而来 创建Pair RDD ● Python:pairs = lines.map(lambda x: (x.spl ...
分类:其他好文   时间:2019-01-21 16:05:29    阅读次数:183
【51CTO微职位】-大数据高级工程师2018年学习总结及2019年学习规划
【51CTO微职位】-大数据高级工程师2018年学习总结及2019年学习规划,零基础小白的学习总结。
分类:其他好文   时间:2019-01-21 16:01:01    阅读次数:210
SparkRDD未持久化——持久化
RDD的持久化策略: cache、persist、checkpoint三种策略(持久化的单位是partition) 1、cache是persist的一个简化版,会将rdd中的数据持久化到内存中 cache = persists(StorageLevel.MEMORY_ONLY) 不进行序列化特点: ...
分类:其他好文   时间:2019-01-20 18:56:55    阅读次数:212
Spark:RDD的设计与运行原理
# Spark:RDD的设计与运行原理 ## 1.RDD设计背景在实际应用中,存在许多迭代式算法和家忽视数据挖掘工具,这些应用场景的共同之处是,不同计算阶段之间会重用中间结果,即下一个阶段的输出结果会作为下一个阶段的输入。但是,目前的MapReduce框架都是把中间结果写入到HDFS中,带来了大量的 ...
分类:其他好文   时间:2019-01-18 16:32:24    阅读次数:226
1327条   上一页 1 ... 39 40 41 42 43 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!