服务器运行环境:spark 2.4.4 + scall 2.11.12 + kafka 2.2.2 由于业务相对简单,kafka只有固定topics,所以一直使用下面脚本执行实时流计算 spark-submit --packages org.apache.spark:spark-streaming- ...
分类:
其他好文 时间:
2020-03-18 11:45:06
阅读次数:
53
1. DataFrame 本片将介绍Spark RDD的限制以及DataFrame(DF)如何克服这些限制,从如何创建DataFrame,到DF的各种特性,以及如何优化执行计划。最后还会介绍DF有哪些限制。 2. 什么是 Spark SQL DataFrame? 从Spark1.3.0版本开始,DF ...
分类:
其他好文 时间:
2020-03-16 12:56:06
阅读次数:
95
配置内核参数后重启生效# echo 'vm.swappiness=10'>> /etc/sysctl.conf 安装JDK8# rpm -ivh jdk-8u211-linux-x64.rpm # vi /etc/profileexport JAVA_HOME=/usr/java/jdk1.8.0_ ...
分类:
其他好文 时间:
2020-03-15 22:11:33
阅读次数:
76
1.使用foreach碰到了问题 没看过累加器的时候,写了这么个代码,发现map里头foreach完了还是0啊?咋回事啊? 1 def calNrOfEachDataMap(data:RDD[String],neededDataMap:Set[Map[Int,String]]): Map[Map[I ...
分类:
其他好文 时间:
2020-03-15 10:10:54
阅读次数:
163
[toc] 使用 或`concat_ws() `SQL函数,可以将一个或多个列连接到Spark DataFrame上的单个列中。在文本中,将学习如何使用这些函数,还可以使用原始SQL通过Scala示例来连接列。 Preparing Data & DataFrame 注意,我们需要导入spark对象上 ...
分类:
其他好文 时间:
2020-03-14 23:54:22
阅读次数:
61
pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法(在hive或者spark-sql命令行均可): 查询建表信息: show create table database_name.table_name; 查询表的属性信息 (可看到表的格式信息例如,Input ...
分类:
其他好文 时间:
2020-03-14 20:06:06
阅读次数:
166
1.安装scala 2.11.8 2.解压下载包 cd ~/下载 sudo tar -zxf kafka_2.11-0.10.1.0.tgz -C ~/app cd ~/app sudo mv kafka_2.11-0.10.1.0/ ./kafka sudo chown -R hadoop ./k ...
分类:
其他好文 时间:
2020-03-14 19:56:39
阅读次数:
121
一、部署准备:1、准备服务器系统要求:windowsserver或linux系统最低配置建议:cpu:2核,内存:4G,带宽:5M,硬盘:系统盘40G,数据盘10G及以上运行环境:IIS+PHP+MySQL、Apache+PHP+MySQL、Nginx+PHP+MySQLPHP版本:只支持php-5.6,并且Windows环境下的只支持非线程安全(NTS)的PHP版本MySQL建议版本:MySQL
分类:
其他好文 时间:
2020-03-13 14:39:57
阅读次数:
94
什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe ...
分类:
数据库 时间:
2020-03-11 10:46:14
阅读次数:
68