码迷,mamicode.com
首页 >  
搜索关键字:spark 模式匹配    ( 8426个结果
Spark存储Parquet数据到Hive,对map、array、struct字段类型的处理
利用Spark往Hive中存储parquet数据,针对一些复杂数据类型如map、array、struct的处理遇到的问题?为了更好的说明导致问题 ...
分类:其他好文   时间:2020-12-08 12:44:11    阅读次数:4
图解Spark系列:RDD的创建与执行
设计Spark程式过程中最初始的是创建RDD数据集,该数据集来自定义的源数据,当RDD数据集初始后,再通过算子对RDD数据集作转换生成后续的数据集。Spark中提供了多种创建RDD数据集的方法,比如:通过内存集合创建、或使用本地文件创建以及HDFS文件创建RDD数据集。最常见的是第三种方式,生产环境下通常会读取并基于HDFS上存储的数据来创建并进行离线批处理。典型的RDD创建流程为,通过输入算子(
分类:其他好文   时间:2020-12-04 10:59:58    阅读次数:4
Flink之流式框架的对比
Flink的优势和特点: 一、同时支持高吞吐、低延迟、高性能 Flink是目前开源社区中唯一一套集高吞吐、低延迟、高性能三者于一身的分布式流式数据处理框架。Apache Spark也只能兼顾高吞吐和高性能特点,主要是因为Spark Streaming流式计算中无法做到低延迟保障;而流式计算框架Apa ...
分类:其他好文   时间:2020-12-03 11:33:38    阅读次数:5
【必学】Linux 下三剑客的技能,你敢不学?
awk是一种用于处理文本、模式匹配的编程语言。与sed和grep,俗称Linux下的三剑客。学会awk等于你在Linux命令行里,又多了一种处理文本的选择。这篇文章重点教你如何使用,看完这篇文章,就大致知道如何使用了,力求简单使用。术语铺垫在awk的文本处理规则里,awk将文本文件视为由字段和记录组成的文本数据库。默认情况下,awk将每一行视为一个记录,也就是说记录的分隔符是\n,记录的分隔符可以
分类:系统相关   时间:2020-12-01 12:42:31    阅读次数:16
kakafka - 为CQRS而生fka - 为CQRS而生
前段时间跟一个朋友聊起kafka,flint,spark这些是不是某种分布式运算框架。我自认为的分布式运算框架最基础条件是能够把多个集群节点当作一个完整的系统,然后程序好像是在同一台机器的内存里运行一样。当然,这种集成实现方式有赖于底层的一套消息系统。这套消息系统可以把消息随意在集群各节点之间自由传 ...
分类:其他好文   时间:2020-11-30 16:09:25    阅读次数:9
Spark开发_Spark的UDF开发
###Spark中的UDF Spark1.6只能创建临时UDF,不支持创建持久化的UDF。 从Spark-2.0开始,SparkSQL支持持久化的UDF,目前看来是支持UDAF ###Spark中的UDF 过程 (1)自定义UDF类,实现UDF1/2/3....22中的接口之一,其中UDF后跟的数字 ...
分类:其他好文   时间:2020-11-26 15:06:55    阅读次数:6
重要 | Spark分区并行度决定机制
最近经常有小伙伴留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.default.parallelism这个参数时不是一直起作用?其实笔者之前的文章已有相关介绍,想知道为什么,就必须了解S... ...
分类:其他好文   时间:2020-11-23 12:25:04    阅读次数:5
R数据框的行列数
# abc的类型为tbl_spark class(abc) #"tbl_spark" #列名 colnames(abc) #行数 abc %>% count() # 把abc转为data frame a <- data.frame(abc) class(a) #"data.frame" #行列数 d ...
分类:其他好文   时间:2020-11-21 12:35:33    阅读次数:5
深入探讨HBASE
HBase是一个高可靠、高性能、面向列的,主要用于海量结构化和半结构化数据存储的分布式key-value存储系统。它基于Google Bigtable开源实现,但二者有明显的区别:Google Bigtable基于GFS存储,通过MAPREDUCE处理存储的数据,通过chubby处理协同服务;而HB... ...
分类:其他好文   时间:2020-11-20 12:05:39    阅读次数:11
【问题】Spark Streaming批次处理耗时问题排查
Spark Streaming处理流程中,遇到某些批次耗时长的问题,排查思路
分类:其他好文   时间:2020-11-18 13:12:54    阅读次数:8
8426条   上一页 1 ... 14 15 16 17 18 ... 843 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!