搜索关键字：openfire spark，搜索到7382个结果！码迷,mamicode.com！

2. Spark GraphX解析

2.1 存储模式 2.1.1 图存储模式巨型图的存储总体上有边分割和点分割两种存储方式 1）边分割(Edge-Cut)：每个顶点都存储一次，但有的边会被打断分到两台机器上。这样做的好处是节省存储空间；坏处是对图进行基于边的计算时，对于一条两个顶点被分到不同机器上的边来说，要跨机器通信传输数据，内网 ...

分类：其他好文时间：2019-12-16 09:48:57 阅读次数：115

Spark-Core RDD转换算子-Value型

1、 map(func) 作用 : 返回一个新的 RDD, 该 RDD 是由原 RDD 的每个元素经过函数转换后的值而组成. 就是对 RDD 中的数据做转换. 创建一个包含1 10的的 RDD，然后将每个元素 2形成新的 RDD 2、mapPartitions(func) 作用 : 类似于map(f ...

分类：其他好文时间：2019-12-15 20:28:24 阅读次数：96

Spark-Core RDD转换算子-双Value型交互

1、union（otherDataSet）作用： . 对源 RDD 和参数 RDD 求并集后返回一个新的 RDD 2、subtract（otherDataSet）作用: 从原 RDD 中减去原 RDD 和otherDataset 中的共同的部分. 3、intersection（otherDa ...

分类：其他好文时间：2019-12-15 20:02:10 阅读次数：81

Spark RDD

scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777,888))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :15查看该... ...

分类：其他好文时间：2019-12-15 01:05:06 阅读次数：98

spark调优篇-spark on yarn web UI

spark on yarn 的执行过程在 yarn RM 上无法直接查看，即 http://192.168.10.10:8088，这对于调试程序很不方便，所以需要手动配置配置方法 1. 配置 spark-defaults.conf cp spark-defaults.conf.template s ...

分类：Web程序时间：2019-12-14 18:50:53 阅读次数：174

SparkSQL学习案例:使用DataFrame和Dataset操作json数据

一、测试数据集(奥特曼.json) 二、源代码 1 import org.apache.spark.sql.SparkSession 2 3 //在Scala中,样例类在编译时会默认实现Product特质 4 case class Ultraman(name: String, age: BigInt ...

分类：数据库时间：2019-12-14 17:35:20 阅读次数：144

Hive与HBase的区别

从使用方面讲 Hive是一个构建在Hadoop平台上的数据仓库，可以将结构化的数据文件映射为一张数据库表。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化成Map/Reduce。 HBase 是基于HDFS平台的Key/Value类型的NoSql ...

分类：其他好文时间：2019-12-14 15:36:27 阅读次数：95

Maven常见问题汇总

1. spark编译出现error：object Apache is not a member of package org 原因：idea用的maven路径默认在C盘用户.m2文件下，这个问题此处是因为路径中包含中文造成的解决方案：将.m2移动到其他路径（不含空格和英文），然后重新指定idea中 ...

分类：其他好文时间：2019-12-13 19:36:03 阅读次数：69

进阶算子

进阶算子： import org.apache.spark.rdd.RDD import org.apache.spark.{HashPartitioner, SparkConf, SparkContext} /** * 进阶算子 */ object FunctionDemo2 { def main ...

分类：其他好文时间：2019-12-12 18:03:32 阅读次数：79

TextFile分区问题

val rdd = sc.parallelize(List(1,2,3,4,5,6),第二参数)这里的第二参数获取方式有两种:1.直接给定值,根据传入的值决定分区的数量2.根据运行环境获取分区数量(core) -->例如本地运行设置为local 此时设置分区值默认分区就是1个 val rdd ...

分类：其他好文时间：2019-12-12 17:57:37 阅读次数：190

共7382条上一页 1 ... 79 80 81 82 83 ... 739 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)