Spark在集群上的运行模式 http://spark.apache.org/docs/latest/cluster overview.html Component章节 1 Each application gets its own executor processes,所以各application ...
分类:
其他好文 时间:
2019-10-04 23:02:00
阅读次数:
111
一.简介 参考:https://www.cnblogs.com/yszd/p/10186556.html 二.代码实现 三.结果 1.三元组视图 2.顶点 3.边 4.各顶点的度 5.三元组视图 6.边/顶点数量 四.源码分析 ...
分类:
其他好文 时间:
2019-10-04 13:15:13
阅读次数:
188
原理: RDD:使用内存--基本处理单位RDD:弹性分布式数据集 spark处理的时候,处理的是RDD数据(相当于是将块数据加载到内存中) 类似: [1,2,3,4,5,...] 1个节点处理 [1,2] 1个节点处理[3,4,5] ...... stage: 一个 Job 会被分成一个或多个Sta ...
分类:
其他好文 时间:
2019-10-04 13:12:04
阅读次数:
78
Spark调优 写在前面 对于调优, 我觉得是没有放之四海而皆准的办法. 很多时候, 调优显得没有必要, 即使不进行调优, 程序也能够顺利执行. 在没有出现问题的时候, 不进行调优, 即使是在大数据中, 这也是我常常采用的原则. 并且, 针对问题再进行调优, 往往是更为合适的. 比如, 明明资源充足 ...
分类:
其他好文 时间:
2019-10-04 12:59:18
阅读次数:
85
Spark SQL是处理结构化的数据,可以存储在二维表中,类似数据库中的表一样存储数据 Spark1.x val sqlContext = new SparkContext(conf) val sqlContext = new SQLContext(sc) //将RDD和Schema信息关联到一起, ...
分类:
数据库 时间:
2019-10-04 11:28:54
阅读次数:
107
cloudera官网spark:https://docs.cloudera.com/documentation/enterprise/6/6.2/topics/spark.htmlspark官网:https://spark.apache.org/documentation.htmlCDH安装spar ...
分类:
其他好文 时间:
2019-10-04 11:25:52
阅读次数:
565
window系统 1. anaconda 或python spark环境变量 2. 配置spark home D:\Develop\spark-1.6.0-bin-hadoop2.6\spark-1.6.0-bin-hadoop2.6 3. C:\Users\Administrator>pip in... ...
分类:
编程语言 时间:
2019-10-04 09:53:57
阅读次数:
157
如果你要使用idea的话,那么请下载spark-2.4.4-bin-hadoop2.7.tgz版本,而非其他版本,不然会在使用idea的时候,会报错缺少许多类 如: ...
分类:
其他好文 时间:
2019-10-04 09:29:05
阅读次数:
135
spark整合hive后,hive启动报错: ls: cannot access /export/servers/spark/lib/spark-assembly-*.jar: No such file or directory 原因:spark版本升级到2.x以后,原有lib目录下的大JAR包被分 ...
分类:
其他好文 时间:
2019-10-03 23:44:17
阅读次数:
162
4.2.1 下载并安装spark 下载文件名:spark-2.4.4-bin-without-hadoop.tgz 4.2.2 配置linux环境变量 4.2.3 配置spark-env.sh变量环境 4.2.4 修改slaves文件 4.2.5 拷贝到其他节点scp -r ~/spark-2.4. ...
分类:
其他好文 时间:
2019-10-02 23:04:32
阅读次数:
473