JDBC 以MySQL为例 读取 import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext} /** * Author atgu ...
分类:
数据库 时间:
2020-05-09 23:21:09
阅读次数:
86
Hadoop概述: Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。H ...
分类:
其他好文 时间:
2020-05-09 23:07:57
阅读次数:
222
规划:nn1.hadoop nn2.hadoop s1.hadoop s2.hadoop ZK: nn1 nn2 s1journalnode: nn1 nn2 s1DataNode: nn1 nn2 s1 s2NodeManager: nn1 nn2 s1 s2NameNode: nn1 nn2Re ...
分类:
系统相关 时间:
2020-05-09 21:12:33
阅读次数:
83
原因是hive版本太老,不能识别integer,只能识别int http://mail-archives.apache.org/mod_mbox/hive-dev/201310.mbox/%3CJIRA.12595720.1340551511790.3851.1383257119001@arcas% ...
分类:
其他好文 时间:
2020-05-09 19:25:19
阅读次数:
169
1.写在前面 在利用spark计算引擎将kafka或其他源数据组件的数据入hive形成数仓的过程中有两种方式,一种方式是利用spark Rdd的API将数据写入hdfs形成hdfs文件,之后再将文件和hdfs文件和hive表做加载映射。第二种方式是利用sparkSQL将获取的数据Rdd转换成data ...
分类:
数据库 时间:
2020-05-09 19:20:15
阅读次数:
100
spark sql使用自己封装的livy 引擎执行时有丢失数据情况。排查发现livy session页面中的sql有中文乱码。 之后在livy 源码中未找到相关序列化指定字符集的代码。回头排查自己的代码 修改完毕后重新执行 观察livy session中的sql。 果然乱码没了,执行结果集跟spar ...
分类:
Web程序 时间:
2020-05-09 16:39:29
阅读次数:
91
二者对比 1.Hive 数据仓库:本质其实就相当于将hdfs中已经存储的文件在Mysql中做了一个双射关系,以方便用HQL去管理查询。 用于数据分析、清洗:Hive适用于离线的数据分析和清洗,延迟较高。 基于HDFS、MapReduce:Hive存储的数据依旧在DataNode上,编写的HQL语句终 ...
分类:
其他好文 时间:
2020-05-09 01:23:51
阅读次数:
63
关注公众号:分享电脑学习回复"百度云盘" 可以免费获取所有学习文档的代码(不定期更新)云盘目录说明:tools目录是安装包res 目录是每一个课件对应的代码和资源等doc 目录是一些第三方的文档工具 承接上一篇文档《Spark案例练习-PV的统计》 参数说明: 继续上面的PV代码编写即可 思路:UV ...
分类:
其他好文 时间:
2020-05-09 01:15:58
阅读次数:
65
1,Pinpoint的架构: Pinpoint的组件介绍: Pinpoint-Collector:收集各种性能数据 Pinpoint-Web:将收集到的数据显示成WEB网页形式 HBase Storage:收集到的数据存到HBase中 Pinpoint-Agent:和自己运行的应用关联起来的探针 P ...
分类:
其他好文 时间:
2020-05-09 00:26:14
阅读次数:
114
package spark.action.factory; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql ...
分类:
其他好文 时间:
2020-05-08 21:18:36
阅读次数:
120