我的问题:部署k8s时,kubelet一直无法启动。 [root@jm228 ~]# kubeadm init --config=kubeadm-config.yaml --experimental-upload-certs --ignore-preflight-errors=all | tee k ...
分类:
其他好文 时间:
2020-03-27 19:54:57
阅读次数:
225
1、背景: 在做spark history complete和incomplete测试的时候,我们使用spark-shell启动了一个on yarn的任务,如果我们只是启动了,没有进行任何计算的话,那么我们在incomplete里面是看读的任务的,退出的时候可以在complete中可以看到,那么为什 ...
分类:
其他好文 时间:
2020-03-26 21:41:45
阅读次数:
142
微软在Ignite2019大会上正式发布了新一代数据库产品SQLServer2019。使用统一的数据平台实现业务转型SQLServer2019附带ApacheSpark和HadoopDistributedFileSystem(HDFS),可实现所有数据的智能化。SQLServer2019的亮点SQLServer是数据集成的中心。通过SQLserver和Spark为结构化和非结构化数据提供转型洞察力
分类:
数据库 时间:
2020-03-26 10:48:50
阅读次数:
131
首先先简单介绍下hive: Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射成一张数据表,并可以使用类似SQL的方式来对数据文件进行读写以及管理。这套Hive SQL 简称HQL。Hive的执行引擎可以是MR、Spark、Tez。 核心架构: Hive官网地址 http:// ...
分类:
其他好文 时间:
2020-03-26 01:39:24
阅读次数:
93
#!/bin/bash #队列名 根据yarn的队列提交 realtime_queue=root #提交的任务名 my_job_name="OrderQZ" spark-shell --master yarn --deploy-mode client \ --queue $realtime_queu ...
分类:
其他好文 时间:
2020-03-26 01:02:34
阅读次数:
81
https://blog.csdn.net/meihao5/article/details/81084876?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task ...
分类:
其他好文 时间:
2020-03-25 01:44:18
阅读次数:
49
Shuffle的中文含义是混洗,官方定义是:一种让数据重新分布以使得某些数据被放在同一分区里的一种机制。Shuffle的过程中,存在着大量的网络消耗传输数据,会在磁盘上产生大量的中间文件,在平时的工作中了解shuffle的运行机制能帮助我们写出更优秀的代码。此篇文章从shuffle的含义开始讲起,按... ...
分类:
其他好文 时间:
2020-03-22 23:52:35
阅读次数:
84
原创/朱季谦 图数据库是一项比较前沿而逐渐热门的技术,是NoSql数据库的一种,它应用图形理论存储实体之间的关系信息,最主要的组成有两种,结点集和连接结点的边。随着数据量的日渐庞大,传统数据库很难处理关系之间的运算,但图数据库则是专门为关系而生。 若你还没接触过图数据库,可能看到这个概念时,将会比较 ...
分类:
编程语言 时间:
2020-03-22 19:36:04
阅读次数:
230
本文参考 在阅读了《Spark快速大数据分析》动物书后,大概了解到了spark常用的api,不过书中并没有给予所有api详细的案例,而且现在spark的最新版本已经上升到了2.4.5,动物书中的spark版本还停留在1.2.0版本,所以就有了这篇文章,在最新的2.4.5版本下测试常用的api 由于s... ...
一、介绍 Flink分层组件栈 API支持 对Streaming数据类应用,提供DataStream API 对批处理类应用,提供DataSet API(支持Java/Scala) Libraries支持 支持机器学习(FlinkML) 支持图分析(Gelly) 支持关系数据处理(Table) 支持 ...
分类:
其他好文 时间:
2020-03-22 13:36:23
阅读次数:
79