搜索关键字：spark streaming数据源flume实战，搜索到7001个结果！码迷,mamicode.com！

SparkSQL极速入门整合Kudu实现广告业务数据分析

第1章课程介绍&学习指南本章会对这门课程进行说明并进行学习方法介绍。第2章为什么要学SparkSpark作为近几年最火爆的大数据处理技术，是成为大数据工程师必备的技能之一。本章节将从如下几个方面对Spark进行一个宏观上的介绍：Spark产生背景、特性、环境部署、Spark与Hadoop的对比、 ...

分类：数据库时间：2019-11-11 00:32:19 阅读次数：534

hive-staging文件产生的原因和解决方案

通过spark-sql、hive-sql、hue等提交select或者insert overwrite等sql到hive时，会产生该目录，用于临时存放执行结果，比如insert overwrite会将结果暂存到该目录下，待任务结束，将结果复制到hive表中。关于该目录的生成位置策略可参考该文章：ht ...

分类：其他好文时间：2019-11-10 19:39:33 阅读次数：271

Spark3.0 preview预览版尝试GPU调用（本地模式不支持GPU）

Spark3.0 preview预览版可以下载使用，地址：https://archive.apache.org/dist/spark/spark-3.0.0-preview/，pom.xml也可以进行引用，如下：注意：目前阿里云镜像部分包还没有（2019年11月10日，spark-launcher ...

分类：其他好文时间：2019-11-10 09:25:19 阅读次数：163

25.Spark下载源码和安装和使用

安装scala 上传安装包解压配置scala相关的环境变量验证scala安装是否成功把scala分发给node2 node3 node4 分别给node2 node3 node4配置scala的环境变量，并使其生效 spark安装包下载地址：https://archive.apache.or ...

分类：其他好文时间：2019-11-09 19:51:52 阅读次数：84

Spark之RDD的定义及五大特性

RDD是分布式内存的一个抽象概念，是一种高度受限的共享内存模型，即RDD是只读的记录分区的集合，能横跨集群所有节点并行计算，是一种基于工作集的应用抽象。 RDD底层存储原理：其数据分布存储于多台机器上，事实上，每个RDD的数据都以Block的形式存储于多台机器上，每个Executor会启动一个Blo ...

分类：其他好文时间：2019-11-09 19:19:31 阅读次数：127

windows下jdk、hadoop、Scala、Spark的调试环境配置（jdk路径的空格问题， /tmp/hive on HDFS should be writable问题）

1、首先是jdk的路径问题为了和以后出现的hadoop，spark出现路径带有空格导致调用失败的情况，直接把 jdk的路径剪切到没有空格的目录下。 D:\>echo %JAVA_HOME% C:\Java\jdk1.8.0_202 到这里，在cmd下，能看到 scala -versio ...

分类：Windows程序时间：2019-11-08 23:52:32 阅读次数：135

idea连接spark集群报错解析：Caused by: java.lang.ClassCastException

cannot assign instance of scala.collection.immutable.List$SerializationProxy to field org.apache.spark.sql.execution.aggregate.SortAggregateExec.aggre ...

分类：编程语言时间：2019-11-07 17:41:34 阅读次数：113

在线公开课 | 京东云监控系统设计及落地之路

谈运维为什么离不开监控？典型监控系统一般是如何设计的？业务驱动的高可用监控系统又有何不同？作为巨头之一的电商平台京东，其基于京东云的监控系统是否有值得借鉴的地方？本文将解答这些问题。本文整理自 10 月 30 日由京东云开发者社区和英特尔联合举办的在线公开课，京东云工具产品研发部专家架构师颜志杰的 ...

分类：其他好文时间：2019-11-07 15:08:01 阅读次数：97

JDBC的ResultSet游标转spark的DataFrame，数据类型的映射以TeraData数据库为例

使用场景: 在一些情况下，我们需要保持一个与数据库连接的connection，在没有写物理表权限或者没有必要写物理表时的现实场景用临时表替代物理表进行操作，临时表很多是基于Session的，Seesion间不能相互访问，断开后临时表自动清空，而spark自带的，read.format("jdbc")... ...

分类：数据库时间：2019-11-06 10:23:44 阅读次数：277

流数据

特征：持续到达，数据量大，注重数据整体价值，数据顺序可能颠倒，丢失，实时计算，海量，分布，实时，快速部署，可靠 linked in Kafka spark streaming：微小批处理，模拟流计算，秒级响应 DStream 一系列RDD 的集合支持批处理创建文件流 10代表每10s启动一次 ...

分类：其他好文时间：2019-11-05 18:49:38 阅读次数：98

共7001条上一页 1 ... 86 87 88 89 90 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)