查spark version:spark-sql --version spark的开源包: apache的dist下载spark-2.4.3-bin-hadoop2.8.tgz 1/ spark要访问s3需要cp /usr/lib/hadoop-current/share/hadoop/tools/ ...
分类:
其他好文 时间:
2020-01-11 11:50:20
阅读次数:
125
容器化和微服务是当前最热话题,不久之前,笔者(据说因为现在都不用笔了,“笔者”的称谓已经不合适了,因为输入用键盘,叫“键人”更为合适)参加QCon上海一个微服务监控的Session,场面爆棚,我不得不在拥挤的过道听完了整个session。随着要管理的容器越来越多,容器的集群管理平台成为了刚需! Do ...
分类:
其他好文 时间:
2020-01-10 12:57:11
阅读次数:
107
[TOC] 前提:环境变量 一、local模式 1.配置 2.运行 二、Standalone模式 1.配置 1.1 spark env.sh 1.2 slaves 2.运行 三、Yarn模式 1.配置 1.1 spark env.sh 1.2 yarn site.xml(yarn) 1.3 spar ...
分类:
其他好文 时间:
2020-01-10 12:53:04
阅读次数:
103
什么时候需要调节Executor的堆外内存大小? 当出现一下异常时: shuffle file cannot find,executor lost、task lost,out of memory 出现这种问题的现象大致有这么两种情况: 上述情况下,就可以去考虑调节一下executor的堆外内存。也许 ...
分类:
其他好文 时间:
2020-01-10 12:34:38
阅读次数:
91
1、StringIndexer 标签索引器,它将标签的字符串列映射到标签索引的ML列。 如果输入列为数字,则将其强制转换为字符串并为字符串值编制索引。 索引在[0,numLabels)中。 默认情况下,按标签频率排序,因此最常使用的标签的索引为0。 //定义一个StringIndexerModel, ...
分类:
其他好文 时间:
2020-01-10 12:15:12
阅读次数:
94
导读: 第一节:基础架构 1:编程模型 2:架构 3:数据传输 4:高可靠性 5:高维护性 6:数据处理方式 7:对比MR,SPARK 第二节:计算模型 1:spout 2:bolt 3:stream grouping 4:构建拓扑与提交 第三节:架构 第四节:部署 第五节:数据处理 1:同步计算 ...
分类:
其他好文 时间:
2020-01-09 20:56:24
阅读次数:
117
导读目录 第一节:sparksql 1:简介 2:核心 3:与hive整合 4:dataFrame 5:函数 第二节:spark Streaming 1:对比strom 2:DStream的算子 3:代码 4:driver HA 5:读取数据 第三节:spark调优 第一节:sparksql (1) ...
分类:
数据库 时间:
2020-01-09 20:46:58
阅读次数:
91
导读目录 第一节:代码层面 1:RDD创建 2:算子 3:数据持久化算子 4:广播变量 5:累加器 6:开发流程 第二节:Shuffle优化层面 1:Shuffle 2:调优 第一节:代码层面 (1)RDD创建: Java: sc.textfile sc.parallelize() sc.paral ...
分类:
其他好文 时间:
2020-01-09 20:41:14
阅读次数:
78
1、概念 * CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。 * 当先验字典不可用时,CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。 * 该模型为词汇表上的文档生成稀疏向量 ...
分类:
其他好文 时间:
2020-01-09 17:20:32
阅读次数:
108
今天在开发SparkRDD的过程中出现Buffer Overflow错误,查看具体Yarn日志后发现是因为Kryo序列化缓冲区溢出了,日志建议调大spark.kryoserializer.buffer.max的value,搜索了一下设置keyo序列化缓冲区的方法,特此整理记录下来。 ...
分类:
其他好文 时间:
2020-01-09 01:34:15
阅读次数:
187