spark 提供了两个机器学习库 MLlib 和 ML,MLlib 是 spark 第一个机器学习库,相比于 ML,它更加成熟 rdd 是 spark core 的数据抽象,dataframe 是 sparkSQL 的数据抽象, 而 MLib 的数据抽象包括 Vector、LabeledPoint、 ...
分类:
其他好文 时间:
2019-12-20 18:26:13
阅读次数:
101
准备 1、hadoop已部署(若没有可以参考:Centos7安装Hadoop2.7),集群情况如下(IP地址与之前文章有变动): 2、官网下载安装包:spark-2.4.4-bin-hadoop2.7.tgz(推荐去清华大学或中科大的开源镜像站)。 3、spark将部署在三台都已存在的路径/myda ...
分类:
其他好文 时间:
2019-12-20 15:28:51
阅读次数:
130
现象:hdp的集群没有配置spak的临时本地目录,默认在跑程序的时候会将中间过程的文件存放在本地的/tmp目录下 如果跑的spark数据量过大,就会导致/tmp下文件过大,最终导致根分区被占满,系统崩溃 解决办吧:修改spark的环境变量配置文件,在ambari界面上找到spark-env.sh的配 ...
分类:
其他好文 时间:
2019-12-20 12:12:42
阅读次数:
211
SQL on Hadoop 技术 | 备注 | Apache Hive | Cloudera Impala | Facebook Presto | Apache Drill | Spark SQL | Apache Phoenix | ...
分类:
数据库 时间:
2019-12-20 01:16:13
阅读次数:
124
问题现象:现场hik ipc在vlc通过rtsp取流地址(rtsp://admin:xxxxxxxx@44.110.81.45:554/Streaming/Channels/101?transportmode=unicast)取流,发现vlc界面并没有画面,但是看编码统计却是有收到码流包的。而且换另 ...
分类:
其他好文 时间:
2019-12-20 00:59:41
阅读次数:
401
数据结构:时间戳,省份,城市,用户,广告,中间字段使用空格分割。 样本如下: 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 package Spark02 import org.apache.spark ...
分类:
其他好文 时间:
2019-12-19 18:55:54
阅读次数:
129
sparksql是spark中的一个模块,主要用于进行结构化数据的处理,他提供的最核心的编程抽象,就是DataFrame。同时,sparksql还可以作为分布式的sql查询引擎。 最最重要的功能就是从hive中查询数据。 Dataframe可以理解为:以列的形式组织的,分布式的数据集合。 Dataf ...
分类:
数据库 时间:
2019-12-17 15:26:10
阅读次数:
121
Worker类源码位置: org.apache.spark.deploy.worker /** *启动driver的源码分析 */ case LaunchDriver(driverId, driverDesc) => logInfo(s"Asked to launch driver $driverI ...
分类:
其他好文 时间:
2019-12-17 15:24:00
阅读次数:
108
Data Serialization 对spark程序来说,可能会产生的瓶颈包括:cpu,网络带宽,内存 在任何分布式应用中数据序列化都非常重要,数据序列化带来的作用是什么?第一减少内存占用,第二减小网络传输带宽消耗。spark提供了两种序列化方式: 1.Java serialization 默认情 ...
分类:
其他好文 时间:
2019-12-17 15:01:16
阅读次数:
86
我们进行 Spark 进行编程的时候, 初始化工作是在driver端完成的 ,而 实际的运行程序是在executor端进行 ,所以就涉及到了进程间的通讯,数据是需要序列化的 1、传递函数 说明: (1)直接运行程序会报错: 。因为 用到了 ,所以对象 this需要序列化 , 才能把对象从driver ...
分类:
其他好文 时间:
2019-12-17 13:07:58
阅读次数:
84