码迷,mamicode.com
首页 >  
搜索关键字:spark rdd    ( 7287个结果
SparkStreaming整合Flume的pull方式之启动报错解决方案
Flume配置文件: 但是在启动Flume时,报以下错误: 解决方案: 由于用到了agent的sink是 org.apache.spark.streaming.flume.sink.SparkSink类型,需要把spark streaming flume sink_2.11 2.4.3.jar复制到 ...
分类:Web程序   时间:2019-10-16 13:43:59    阅读次数:98
阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点
笔者从 2008 年开始工作到现在也有 11 个年头了,一路走来都在和数据打交道,做过大数据底层框架内核的开发(Hadoop,Pig,Tez,Spark,Livy),也做过上层大数据应用开发(写 MapReduce Job 做 ETL ,用 Hive 做 Ad hocquery,用 Tableau ...
分类:其他好文   时间:2019-10-14 12:15:22    阅读次数:95
Spark无法读取hive 3.x的表数据
通过Ambari2.7.3安装HDP3.1.0成功之后,通过spark sql去查询hive表的数据发现竟然无法查询 HDP3.0 集成了hive 3.0和 spark 2.3,然而spark却读取不了hive表的数据,准确来说是内表的数据。 原因hive 3.0之后默认开启ACID功能,而且新建的 ...
分类:其他好文   时间:2019-10-14 12:09:25    阅读次数:144
在idea中调试spark程序-配置windows上的 spark local模式
spark程序大致有如下运行模式: standalone模式:spark自带的模式 spark on yarn:利用hadoop yarn来做集群的资源管理 local模式:主要在测试的时候使用, 这三个模式先大致了解,目前我用到的就是local和yarn。其中,我们写spark程序,一般在idea ...
分类:Windows程序   时间:2019-10-14 01:25:46    阅读次数:338
sparksql系列(一)环境搭建
以前公司用的是spark-core,但是换工作后用的多是spark-sql。最近学习了很多spark-sql,在此做一个有spark经验的sparksql快速入门的教程。 JDK安装包 1.8版本:https://pan.baidu.com/s/1pLW3jyKv3N_FhQ7vvE4U2g SCA ...
分类:数据库   时间:2019-10-13 20:59:48    阅读次数:154
Update:SparkStreaming原理_运行过程_高级特性
Spark Streaming 导读 介绍 入门 原理 操作 Table of Contents 1. Spark Streaming 介绍 2. Spark Streaming 入门 2. 原理 3. 操作 导读 介绍 入门 原理 操作 导读 介绍 入门 原理 操作 导读 介绍 入门 原理 操作 ...
分类:其他好文   时间:2019-10-13 15:05:57    阅读次数:90
在vm里搭建高可用Spark集群
说明:本机是在win10系统下,安装用的是VMware15,centOS7,JDK1.8,spark-2.4.0,hadoop-2.7.7,apache-hive-2.3.4,scala-2.12.8。在VMware里创建了node01,node02,node03,node04四个节点(或者叫四个虚拟机)。注意在使用vm14版本的时候出现黑屏,情况如下:在vm上安装好4个节点后,用管理员身份打开V
分类:其他好文   时间:2019-10-13 10:24:41    阅读次数:97
spark每日进步
写wiki感觉不太好,直接写个人博客。其中掺杂了太多个人理解,不保证正确性。但是感觉网上的都是官样文章,而且都是抄来抄去,真真叫没意思。新手村推荐一个极好的博客,最好是一边看能够一遍动手验证,看看scala的函数是怎样转化成不同的stage和task的,看看spark-sql是怎么划分的,理解比较深... ...
分类:其他好文   时间:2019-10-11 23:12:37    阅读次数:110
spark教程(四)-action 操作 group 系列
groupBy(f, numPartitions=None, partitionFunc=<function portable_hash>):根据 条件 分组,这个条件是一个函数;输出 (key,迭代器) groupByKey(numPartitions=None, partitionFunc=<f ...
分类:其他好文   时间:2019-10-11 18:38:54    阅读次数:157
spark连接jdbc,连接mysql
1 最直接的方式 scala> val jdbcDF = spark.read.format("jdbc") .option("url", "jdbc:mysql://hadoop1:3306/rdd") mysql 接口和库名 .option("dbtable", "rddtable") 两张表名 ...
分类:数据库   时间:2019-10-09 19:24:25    阅读次数:126
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!