Hadoop概述: Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。H ...
分类:
其他好文 时间:
2020-05-09 23:07:57
阅读次数:
222
规划:nn1.hadoop nn2.hadoop s1.hadoop s2.hadoop ZK: nn1 nn2 s1journalnode: nn1 nn2 s1DataNode: nn1 nn2 s1 s2NodeManager: nn1 nn2 s1 s2NameNode: nn1 nn2Re ...
分类:
系统相关 时间:
2020-05-09 21:12:33
阅读次数:
83
1.写在前面 在利用spark计算引擎将kafka或其他源数据组件的数据入hive形成数仓的过程中有两种方式,一种方式是利用spark Rdd的API将数据写入hdfs形成hdfs文件,之后再将文件和hdfs文件和hive表做加载映射。第二种方式是利用sparkSQL将获取的数据Rdd转换成data ...
分类:
数据库 时间:
2020-05-09 19:20:15
阅读次数:
100
spark sql使用自己封装的livy 引擎执行时有丢失数据情况。排查发现livy session页面中的sql有中文乱码。 之后在livy 源码中未找到相关序列化指定字符集的代码。回头排查自己的代码 修改完毕后重新执行 观察livy session中的sql。 果然乱码没了,执行结果集跟spar ...
分类:
Web程序 时间:
2020-05-09 16:39:29
阅读次数:
91
关注公众号:分享电脑学习回复"百度云盘" 可以免费获取所有学习文档的代码(不定期更新)云盘目录说明:tools目录是安装包res 目录是每一个课件对应的代码和资源等doc 目录是一些第三方的文档工具 承接上一篇文档《Spark案例练习-PV的统计》 参数说明: 继续上面的PV代码编写即可 思路:UV ...
分类:
其他好文 时间:
2020-05-09 01:15:58
阅读次数:
65
package spark.action.factory; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql ...
分类:
其他好文 时间:
2020-05-08 21:18:36
阅读次数:
120
//spark读取数据 Dataset<Row> df = spark.read().textFile(currentSrcPath, 1); Dataset<Row> df = spark.read().json(path); Dataset<Row> df = spark.read().orc( ...
分类:
其他好文 时间:
2020-05-08 18:23:41
阅读次数:
85
1、参数配置(并行度)分区的默认个数等于对spark.default.parallelism的指定值2、根据父rdd的reduceTask数量3、读取hdfs的文件生成的rddrdd分区的数量等于hdfs的文件的block4、sparkStreaming生成的rdd根据block interval, ...
分类:
其他好文 时间:
2020-05-08 16:12:24
阅读次数:
129
Kafka基于Zookeeper协调的分布式日志系统,可以当做MQ。主要就是做:日志收集系统、消息系统。还有就是用于用户活动跟踪:记录web用户或者app用户的各种活动,相信大家都感受到了吧。上篇我们已经提到,消息系统的两种传递模式:点对点、订阅/发布。这里将不再赘述。【对比】名称Column2RabbitMQ使用Erlang编写的一个开源的消息队列,适合企业级的开发,同时实现了Broker构架,
分类:
其他好文 时间:
2020-05-08 09:42:36
阅读次数:
66
将jar包放置服务器运行 1.环境配置 + 在/etc/profile中配置 + 在hadoop env.sh配置,==在for循环后面添加== 直接在开发平台运行,连接到HBase服务端(以IDEA为例) 1.环境配置,添加hbase site.xml,将远程的hbase site.xml文件内容 ...
分类:
其他好文 时间:
2020-05-07 22:58:36
阅读次数:
83