码迷,mamicode.com
首页 >  
搜索关键字:openfire spark    ( 7382个结果
2. Spark GraphX解析
2.1 存储模式 2.1.1 图存储模式 巨型图的存储总体上有边分割和点分割两种存储方式 1)边分割(Edge-Cut):每个顶点都存储一次,但有的边会被打断分到两台机器上。这样做的好处是节省存储空间;坏处是对图进行基于边的计算时,对于一条两个顶点被分到不同机器上的边来说,要跨机器通信传输数据,内网 ...
分类:其他好文   时间:2019-12-16 09:48:57    阅读次数:115
Spark-Core RDD转换算子-Value型
1、 map(func) 作用 : 返回一个新的 RDD, 该 RDD 是由原 RDD 的每个元素经过函数转换后的值而组成. 就是对 RDD 中的数据做转换. 创建一个包含1 10的的 RDD,然后将每个元素 2形成新的 RDD 2、mapPartitions(func) 作用 : 类似于map(f ...
分类:其他好文   时间:2019-12-15 20:28:24    阅读次数:96
Spark-Core RDD转换算子-双Value型交互
1、union(otherDataSet) 作用 : . 对源 RDD 和参数 RDD 求并集后返回一个新的 RDD 2、subtract(otherDataSet) 作用: 从原 RDD 中减去 原 RDD 和otherDataset 中的共同的部分. 3、intersection(otherDa ...
分类:其他好文   时间:2019-12-15 20:02:10    阅读次数:81
Spark RDD
scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777,888))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :15查看该... ...
分类:其他好文   时间:2019-12-15 01:05:06    阅读次数:98
spark调优篇-spark on yarn web UI
spark on yarn 的执行过程在 yarn RM 上无法直接查看,即 http://192.168.10.10:8088,这对于调试程序很不方便,所以需要手动配置 配置方法 1. 配置 spark-defaults.conf cp spark-defaults.conf.template s ...
分类:Web程序   时间:2019-12-14 18:50:53    阅读次数:174
SparkSQL学习案例:使用DataFrame和Dataset操作json数据
一、测试数据集(奥特曼.json) 二、源代码 1 import org.apache.spark.sql.SparkSession 2 3 //在Scala中,样例类在编译时会默认实现Product特质 4 case class Ultraman(name: String, age: BigInt ...
分类:数据库   时间:2019-12-14 17:35:20    阅读次数:144
Hive与HBase的区别
从使用方面讲 Hive是一个构建在Hadoop平台上的数据仓库,可以将结构化的数据文件映射为一张数据库表。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化成Map/Reduce。 HBase 是基于HDFS平台的Key/Value类型的NoSql ...
分类:其他好文   时间:2019-12-14 15:36:27    阅读次数:95
Maven常见问题汇总
1. spark编译出现error:object Apache is not a member of package org 原因:idea用的maven路径默认在C盘用户.m2文件下,这个问题此处是因为路径中包含中文造成的 解决方案:将.m2移动到其他路径(不含空格和英文),然后重新指定idea中 ...
分类:其他好文   时间:2019-12-13 19:36:03    阅读次数:69
进阶算子
进阶算子: import org.apache.spark.rdd.RDD import org.apache.spark.{HashPartitioner, SparkConf, SparkContext} /** * 进阶算子 */ object FunctionDemo2 { def main ...
分类:其他好文   时间:2019-12-12 18:03:32    阅读次数:79
TextFile分区问题
val rdd = sc.parallelize(List(1,2,3,4,5,6),第二参数)这里的第二参数 获取方式有两种:1.直接给定值,根据传入的值决定分区的数量2.根据运行环境获取分区数量(core) -->例如 本地运行 设置为local 此时设置分区值默认分区就是1个 val rdd ...
分类:其他好文   时间:2019-12-12 17:57:37    阅读次数:190
7382条   上一页 1 ... 79 80 81 82 83 ... 739 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!