搜索关键字：spark rdd，搜索到7287个结果！码迷,mamicode.com！

SparkStreaming整合Flume的pull方式之启动报错解决方案

Flume配置文件：但是在启动Flume时，报以下错误：解决方案：由于用到了agent的sink是 org.apache.spark.streaming.flume.sink.SparkSink类型，需要把spark streaming flume sink_2.11 2.4.3.jar复制到 ...

分类：Web程序时间：2019-10-16 13:43:59 阅读次数：98

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

笔者从 2008 年开始工作到现在也有 11 个年头了，一路走来都在和数据打交道，做过大数据底层框架内核的开发（Hadoop，Pig，Tez，Spark，Livy），也做过上层大数据应用开发（写 MapReduce Job 做 ETL ，用 Hive 做 Ad hocquery，用 Tableau ...

分类：其他好文时间：2019-10-14 12:15:22 阅读次数：95

Spark无法读取hive 3.x的表数据

通过Ambari2.7.3安装HDP3.1.0成功之后，通过spark sql去查询hive表的数据发现竟然无法查询 HDP3.0 集成了hive 3.0和 spark 2.3，然而spark却读取不了hive表的数据，准确来说是内表的数据。原因hive 3.0之后默认开启ACID功能，而且新建的 ...

分类：其他好文时间：2019-10-14 12:09:25 阅读次数：144

在idea中调试spark程序-配置windows上的 spark local模式

spark程序大致有如下运行模式： standalone模式：spark自带的模式 spark on yarn：利用hadoop yarn来做集群的资源管理 local模式：主要在测试的时候使用，这三个模式先大致了解，目前我用到的就是local和yarn。其中，我们写spark程序，一般在idea ...

分类：Windows程序时间：2019-10-14 01:25:46 阅读次数：338

sparksql系列(一)环境搭建

以前公司用的是spark-core，但是换工作后用的多是spark-sql。最近学习了很多spark-sql，在此做一个有spark经验的sparksql快速入门的教程。 JDK安装包 1.8版本：https://pan.baidu.com/s/1pLW3jyKv3N_FhQ7vvE4U2g SCA ...

分类：数据库时间：2019-10-13 20:59:48 阅读次数：154

Update：SparkStreaming原理_运行过程_高级特性

Spark Streaming 导读介绍入门原理操作 Table of Contents 1. Spark Streaming 介绍 2. Spark Streaming 入门 2. 原理 3. 操作导读介绍入门原理操作导读介绍入门原理操作导读介绍入门原理操作 ...

分类：其他好文时间：2019-10-13 15:05:57 阅读次数：90

在vm里搭建高可用Spark集群

说明：本机是在win10系统下，安装用的是VMware15，centOS7,JDK1.8,spark-2.4.0,hadoop-2.7.7,apache-hive-2.3.4,scala-2.12.8。在VMware里创建了node01,node02,node03,node04四个节点(或者叫四个虚拟机)。注意在使用vm14版本的时候出现黑屏，情况如下：在vm上安装好4个节点后，用管理员身份打开V

分类：其他好文时间：2019-10-13 10:24:41 阅读次数：97

spark每日进步

写wiki感觉不太好，直接写个人博客。其中掺杂了太多个人理解，不保证正确性。但是感觉网上的都是官样文章，而且都是抄来抄去，真真叫没意思。新手村推荐一个极好的博客，最好是一边看能够一遍动手验证，看看scala的函数是怎样转化成不同的stage和task的，看看spark-sql是怎么划分的，理解比较深... ...

分类：其他好文时间：2019-10-11 23:12:37 阅读次数：110

spark教程(四)-action 操作 group 系列

groupBy(f, numPartitions=None, partitionFunc=<function portable_hash>)：根据条件分组，这个条件是一个函数；输出 (key，迭代器) groupByKey(numPartitions=None, partitionFunc=<f ...

分类：其他好文时间：2019-10-11 18:38:54 阅读次数：157

spark连接jdbc，连接mysql

1 最直接的方式 scala> val jdbcDF = spark.read.format("jdbc") .option("url", "jdbc:mysql://hadoop1:3306/rdd") mysql 接口和库名 .option("dbtable", "rddtable") 两张表名 ...

分类：数据库时间：2019-10-09 19:24:25 阅读次数：126

共7287条上一页 1 ... 98 99 100 101 102 ... 729 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)