1.启动spark SQL时,报错: Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver ("com.mysql. ...
分类:
其他好文 时间:
2019-12-17 00:31:15
阅读次数:
110
大约各位看官君多少也听说了Storm/Spark/Flink,这些都是大数据流式处理框架。如果一条手机组装流水线上不同的人做不同的事,有的装电池,有的装屏幕,直到最后完成,这就是典型的流式处理。如果手机组装是先全部装完电池,再交给装屏幕的组,直到完成,这就是旧式的集合式处理。今天,就来先说说JDK8 ...
分类:
编程语言 时间:
2019-12-16 15:00:46
阅读次数:
829
GeoSpark是一种用于大规模空间数据处理的集群计算。 GeoSpark通过一组out of the box空间弹性分布式数据集( SRDDs ) 扩展 Apache Spark,它可以跨机器高效地加载。处理、分析、展示大规模空间数据。 准备工作 1. Windows 和 spark 2. IDE ...
分类:
其他好文 时间:
2019-12-16 13:28:59
阅读次数:
440
1、reduce(func) 通过func函数聚集RDD 中的所有元素, 先聚合分区内数据,再聚合分区间数据。 2、collect 以 的形式返回 RDD 中的所有元素. 所以要慎用 3、count 返回 RDD 中元素的个数. 4、take(n) 返回 RDD 中 组成的 . take 的数据也会 ...
分类:
其他好文 时间:
2019-12-16 12:54:02
阅读次数:
74
2.1 存储模式 2.1.1 图存储模式 巨型图的存储总体上有边分割和点分割两种存储方式 1)边分割(Edge-Cut):每个顶点都存储一次,但有的边会被打断分到两台机器上。这样做的好处是节省存储空间;坏处是对图进行基于边的计算时,对于一条两个顶点被分到不同机器上的边来说,要跨机器通信传输数据,内网 ...
分类:
其他好文 时间:
2019-12-16 09:48:57
阅读次数:
115
1、 map(func) 作用 : 返回一个新的 RDD, 该 RDD 是由原 RDD 的每个元素经过函数转换后的值而组成. 就是对 RDD 中的数据做转换. 创建一个包含1 10的的 RDD,然后将每个元素 2形成新的 RDD 2、mapPartitions(func) 作用 : 类似于map(f ...
分类:
其他好文 时间:
2019-12-15 20:28:24
阅读次数:
96
1、union(otherDataSet) 作用 : . 对源 RDD 和参数 RDD 求并集后返回一个新的 RDD 2、subtract(otherDataSet) 作用: 从原 RDD 中减去 原 RDD 和otherDataset 中的共同的部分. 3、intersection(otherDa ...
分类:
其他好文 时间:
2019-12-15 20:02:10
阅读次数:
81
scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777,888))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :15查看该... ...
分类:
其他好文 时间:
2019-12-15 01:05:06
阅读次数:
98
spark on yarn 的执行过程在 yarn RM 上无法直接查看,即 http://192.168.10.10:8088,这对于调试程序很不方便,所以需要手动配置 配置方法 1. 配置 spark-defaults.conf cp spark-defaults.conf.template s ...
分类:
Web程序 时间:
2019-12-14 18:50:53
阅读次数:
174
一、测试数据集(奥特曼.json) 二、源代码 1 import org.apache.spark.sql.SparkSession 2 3 //在Scala中,样例类在编译时会默认实现Product特质 4 case class Ultraman(name: String, age: BigInt ...
分类:
数据库 时间:
2019-12-14 17:35:20
阅读次数:
144