Flink的优势和特点: 一、同时支持高吞吐、低延迟、高性能 Flink是目前开源社区中唯一一套集高吞吐、低延迟、高性能三者于一身的分布式流式数据处理框架。Apache Spark也只能兼顾高吞吐和高性能特点,主要是因为Spark Streaming流式计算中无法做到低延迟保障;而流式计算框架Apa ...
分类:
其他好文 时间:
2020-12-03 11:33:38
阅读次数:
5
Basic Info 这是CMU 15-213的Malloc Lab,本来没打算做,被同学安利了一波~ 需要用C实现A Dynamic Storage Allocator,类似于libc中的malloc/free/realloc,整体来看难度较大。 开始没什么思路,看了下CSAPP动态内存分配那一节 ...
分类:
其他好文 时间:
2020-12-02 12:40:09
阅读次数:
5
利用Harbor搭建企业级私有镜像仓库(文末赠书)收录于话题#Docker专辑9个「点击图片获取最近两年爆款好文」背景docker中要使用镜像,一般会从本地、dockerHup公共仓库和其它第三方公共仓库中下载镜像,一般出于安全和外网(墙)资源下载速率的原因考虑企业级上不会轻易使用。那么有没有一种办法可以存储自己的镜像又有安全认证的仓库呢?—->企业级环境中基于Harbor搭建自己的安全认证
分类:
其他好文 时间:
2020-12-01 11:44:59
阅读次数:
3
前段时间跟一个朋友聊起kafka,flint,spark这些是不是某种分布式运算框架。我自认为的分布式运算框架最基础条件是能够把多个集群节点当作一个完整的系统,然后程序好像是在同一台机器的内存里运行一样。当然,这种集成实现方式有赖于底层的一套消息系统。这套消息系统可以把消息随意在集群各节点之间自由传 ...
分类:
其他好文 时间:
2020-11-30 16:09:25
阅读次数:
9
###Spark中的UDF Spark1.6只能创建临时UDF,不支持创建持久化的UDF。 从Spark-2.0开始,SparkSQL支持持久化的UDF,目前看来是支持UDAF ###Spark中的UDF 过程 (1)自定义UDF类,实现UDF1/2/3....22中的接口之一,其中UDF后跟的数字 ...
分类:
其他好文 时间:
2020-11-26 15:06:55
阅读次数:
6
最近经常有小伙伴留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.default.parallelism这个参数时不是一直起作用?其实笔者之前的文章已有相关介绍,想知道为什么,就必须了解S... ...
分类:
其他好文 时间:
2020-11-23 12:25:04
阅读次数:
5
试了一下可以: package com.cts.camerademo.camerademo; import android.media.CamcorderProfile; import android.media.MediaRecorder; import android.os.Environmen ...
分类:
其他好文 时间:
2020-11-23 11:46:44
阅读次数:
12
# abc的类型为tbl_spark class(abc) #"tbl_spark" #列名 colnames(abc) #行数 abc %>% count() # 把abc转为data frame a <- data.frame(abc) class(a) #"data.frame" #行列数 d ...
分类:
其他好文 时间:
2020-11-21 12:35:33
阅读次数:
5
HBase是一个高可靠、高性能、面向列的,主要用于海量结构化和半结构化数据存储的分布式key-value存储系统。它基于Google Bigtable开源实现,但二者有明显的区别:Google Bigtable基于GFS存储,通过MAPREDUCE处理存储的数据,通过chubby处理协同服务;而HB... ...
分类:
其他好文 时间:
2020-11-20 12:05:39
阅读次数:
11
Spark Streaming处理流程中,遇到某些批次耗时长的问题,排查思路
分类:
其他好文 时间:
2020-11-18 13:12:54
阅读次数:
8