SparkLDA实例一、准备数据数据格式为:documents:RDD[(Long,Vector)],其中:Long为文章ID,Vector为文章分词后的词向量;通过分词以及数据格式的转换,转换成RDD[(Long,Vector)]即可。二、建立模型importorg.apache.spark.mllib.clustering._valldaOptimizer=newOnlineLDAOptimi
分类:
其他好文 时间:
2019-02-12 15:56:42
阅读次数:
344
#!/bin/env python # -*- coding: utf-8 -*- import sys if sys.platform == 'linux': sys.path.append('/opt/huawei/kg/appspace/cloudword') from flask impor ...
分类:
其他好文 时间:
2019-02-03 14:24:48
阅读次数:
209
代码存在码云:https://coding.net/u/funcfans/p/sparkProject/git 代码主要学习https://blog.csdn.net/u012318074/article/category/6744423/1这里的 发现样例作为正式项目来说效率太低了,为了知识点而知 ...
分类:
数据库 时间:
2019-01-29 18:14:01
阅读次数:
388
一.引言 Spark SQL支持两种不同的方法将现有RDD转换为数据集。 1.第一种方法使用反射来推断包含特定类型对象的RDD的模式。这种基于反射的方法可以使代码更简洁,并且在编写Spark应用程序时已经了解了模式,因此可以很好地工作。详细资料参考 DataFrame与RDD互操作之反射 在开始之前 ...
分类:
其他好文 时间:
2019-01-25 11:40:06
阅读次数:
189
Tuning Spark 数据序列化 内存调优 内存管理概述 确定内存消耗 调整数据结构 序列化 RDD 存储 垃圾收集调整 其他注意事项 并行度水平 减少任务的内存使用 广播大的变量 数据本地化 概要 内存管理概述 确定内存消耗 调整数据结构 序列化 RDD 存储 垃圾收集调整 并行度水平 减少任 ...
分类:
其他好文 时间:
2019-01-24 11:06:06
阅读次数:
171
创建RDD 方式一:从集合创建RDD ● makeRDD ● Parallelize 注意:makeRDD可以指定每个分区perferredLocations参数parallelize则没有。 方式二:读取外部存储创建RDD Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数 ...
分类:
其他好文 时间:
2019-01-21 16:08:36
阅读次数:
162
创建Pair RDD 什么是Pair RDD ● 包含键值对类型的RDD被称作Pair RDD ● Pair RDD通常用来进行聚合计算 ● Pair RDD通常由普通RDD做ETL转换而来 创建Pair RDD ● Python:pairs = lines.map(lambda x: (x.spl ...
分类:
其他好文 时间:
2019-01-21 16:05:29
阅读次数:
183
【51CTO微职位】-大数据高级工程师2018年学习总结及2019年学习规划,零基础小白的学习总结。
分类:
其他好文 时间:
2019-01-21 16:01:01
阅读次数:
210
RDD的持久化策略: cache、persist、checkpoint三种策略(持久化的单位是partition) 1、cache是persist的一个简化版,会将rdd中的数据持久化到内存中 cache = persists(StorageLevel.MEMORY_ONLY) 不进行序列化特点: ...
分类:
其他好文 时间:
2019-01-20 18:56:55
阅读次数:
212
# Spark:RDD的设计与运行原理 ## 1.RDD设计背景在实际应用中,存在许多迭代式算法和家忽视数据挖掘工具,这些应用场景的共同之处是,不同计算阶段之间会重用中间结果,即下一个阶段的输出结果会作为下一个阶段的输入。但是,目前的MapReduce框架都是把中间结果写入到HDFS中,带来了大量的 ...
分类:
其他好文 时间:
2019-01-18 16:32:24
阅读次数:
226