码迷,mamicode.com
首页 >  
搜索关键字:spark 1.0.0    ( 7001个结果
emr-spark
查spark version:spark-sql --version spark的开源包: apache的dist下载spark-2.4.3-bin-hadoop2.8.tgz 1/ spark要访问s3需要cp /usr/lib/hadoop-current/share/hadoop/tools/ ...
分类:其他好文   时间:2020-01-11 11:50:20    阅读次数:125
容器集群管理平台的比较
容器化和微服务是当前最热话题,不久之前,笔者(据说因为现在都不用笔了,“笔者”的称谓已经不合适了,因为输入用键盘,叫“键人”更为合适)参加QCon上海一个微服务监控的Session,场面爆棚,我不得不在拥挤的过道听完了整个session。随着要管理的容器越来越多,容器的集群管理平台成为了刚需! Do ...
分类:其他好文   时间:2020-01-10 12:57:11    阅读次数:107
20.Spark
[TOC] 前提:环境变量 一、local模式 1.配置 2.运行 二、Standalone模式 1.配置 1.1 spark env.sh 1.2 slaves 2.运行 三、Yarn模式 1.配置 1.1 spark env.sh 1.2 yarn site.xml(yarn) 1.3 spar ...
分类:其他好文   时间:2020-01-10 12:53:04    阅读次数:103
spark-调节executor堆外内存
什么时候需要调节Executor的堆外内存大小? 当出现一下异常时: shuffle file cannot find,executor lost、task lost,out of memory 出现这种问题的现象大致有这么两种情况: 上述情况下,就可以去考虑调节一下executor的堆外内存。也许 ...
分类:其他好文   时间:2020-01-10 12:34:38    阅读次数:91
Spark StringIndexer和IndexToString
1、StringIndexer 标签索引器,它将标签的字符串列映射到标签索引的ML列。 如果输入列为数字,则将其强制转换为字符串并为字符串值编制索引。 索引在[0,numLabels)中。 默认情况下,按标签频率排序,因此最常使用的标签的索引为0。 //定义一个StringIndexerModel, ...
分类:其他好文   时间:2020-01-10 12:15:12    阅读次数:94
大数据-storm理论
导读: 第一节:基础架构 1:编程模型 2:架构 3:数据传输 4:高可靠性 5:高维护性 6:数据处理方式 7:对比MR,SPARK 第二节:计算模型 1:spout 2:bolt 3:stream grouping 4:构建拓扑与提交 第三节:架构 第四节:部署 第五节:数据处理 1:同步计算 ...
分类:其他好文   时间:2020-01-09 20:56:24    阅读次数:117
大数据-spark理论(3)sparkSql,sparkStreaming,spark调优
导读目录 第一节:sparksql 1:简介 2:核心 3:与hive整合 4:dataFrame 5:函数 第二节:spark Streaming 1:对比strom 2:DStream的算子 3:代码 4:driver HA 5:读取数据 第三节:spark调优 第一节:sparksql (1) ...
分类:数据库   时间:2020-01-09 20:46:58    阅读次数:91
大数据-spark理论(2)算子,shuffle优化
导读目录 第一节:代码层面 1:RDD创建 2:算子 3:数据持久化算子 4:广播变量 5:累加器 6:开发流程 第二节:Shuffle优化层面 1:Shuffle 2:调优 第一节:代码层面 (1)RDD创建: Java: sc.textfile sc.parallelize() sc.paral ...
分类:其他好文   时间:2020-01-09 20:41:14    阅读次数:78
Spark CountVectorizer
1、概念 * CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。 * 当先验字典不可用时,CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。 * 该模型为词汇表上的文档生成稀疏向量 ...
分类:其他好文   时间:2020-01-09 17:20:32    阅读次数:108
Spark设置Kryo序列化缓冲区大小
今天在开发SparkRDD的过程中出现Buffer Overflow错误,查看具体Yarn日志后发现是因为Kryo序列化缓冲区溢出了,日志建议调大spark.kryoserializer.buffer.max的value,搜索了一下设置keyo序列化缓冲区的方法,特此整理记录下来。 ...
分类:其他好文   时间:2020-01-09 01:34:15    阅读次数:187
7001条   上一页 1 ... 72 73 74 75 76 ... 701 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!