RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。RDD是只读的,不可变的... ...
分类:
其他好文 时间:
2019-10-18 16:09:55
阅读次数:
83
Hadoop+Spark集群部署指南 (多节点文件分发、集群操作建议salt/ansible) 1.集群规划节点名称 主机名 IP地址 操作系统Master centos1 192.168.0.1 CentOS 7.2Slave1 centos2 192.168.0.2 CentOS 7.2Slav ...
分类:
Web程序 时间:
2019-10-17 13:53:28
阅读次数:
132
集成Zeppelin和Spark Big Data Tools是IntelliJ IDEA Ultimate的新插件,是为使用 Zeppelin 和 Spark 的数据工程师和其他专业人员所量身定做的一款软件。 Zeppelin notebooks with IntelliJ IDEA 该插件可在笔 ...
分类:
其他好文 时间:
2019-10-17 13:31:21
阅读次数:
376
1.安装jdk,配置jdk环境变量 https://www.cnblogs.com/zhangjiahao/p/8551362.html 2.安装配置scala https://www.cnblogs.com/zhangjiahao/p/11689268.html 3.安装spark spark下载 ...
分类:
其他好文 时间:
2019-10-17 01:33:22
阅读次数:
103
Flume配置文件: 但是在启动Flume时,报以下错误: 解决方案: 由于用到了agent的sink是 org.apache.spark.streaming.flume.sink.SparkSink类型,需要把spark streaming flume sink_2.11 2.4.3.jar复制到 ...
分类:
Web程序 时间:
2019-10-16 13:43:59
阅读次数:
98
kafka执行如下创建topic的语句: [root@node01 kafka_2.11-1.0.0]# bin/kafka-topics.sh --create --topic streaming-test --replication-factor 1 --partitions 3 --zooke ...
分类:
其他好文 时间:
2019-10-15 21:29:58
阅读次数:
178
笔者从 2008 年开始工作到现在也有 11 个年头了,一路走来都在和数据打交道,做过大数据底层框架内核的开发(Hadoop,Pig,Tez,Spark,Livy),也做过上层大数据应用开发(写 MapReduce Job 做 ETL ,用 Hive 做 Ad hocquery,用 Tableau ...
分类:
其他好文 时间:
2019-10-14 12:15:22
阅读次数:
95
通过Ambari2.7.3安装HDP3.1.0成功之后,通过spark sql去查询hive表的数据发现竟然无法查询 HDP3.0 集成了hive 3.0和 spark 2.3,然而spark却读取不了hive表的数据,准确来说是内表的数据。 原因hive 3.0之后默认开启ACID功能,而且新建的 ...
分类:
其他好文 时间:
2019-10-14 12:09:25
阅读次数:
144
spark程序大致有如下运行模式: standalone模式:spark自带的模式 spark on yarn:利用hadoop yarn来做集群的资源管理 local模式:主要在测试的时候使用, 这三个模式先大致了解,目前我用到的就是local和yarn。其中,我们写spark程序,一般在idea ...
以前公司用的是spark-core,但是换工作后用的多是spark-sql。最近学习了很多spark-sql,在此做一个有spark经验的sparksql快速入门的教程。 JDK安装包 1.8版本:https://pan.baidu.com/s/1pLW3jyKv3N_FhQ7vvE4U2g SCA ...
分类:
数据库 时间:
2019-10-13 20:59:48
阅读次数:
154