搜索关键字：spark 1.0.0，搜索到7001个结果！码迷,mamicode.com！

emr-spark

查spark version:spark-sql --version spark的开源包: apache的dist下载spark-2.4.3-bin-hadoop2.8.tgz 1/ spark要访问s3需要cp /usr/lib/hadoop-current/share/hadoop/tools/ ...

分类：其他好文时间：2020-01-11 11:50:20 阅读次数：125

容器集群管理平台的比较

容器化和微服务是当前最热话题，不久之前，笔者（据说因为现在都不用笔了，“笔者”的称谓已经不合适了，因为输入用键盘，叫“键人”更为合适）参加QCon上海一个微服务监控的Session，场面爆棚，我不得不在拥挤的过道听完了整个session。随着要管理的容器越来越多，容器的集群管理平台成为了刚需！ Do ...

分类：其他好文时间：2020-01-10 12:57:11 阅读次数：107

20.Spark

[TOC] 前提：环境变量一、local模式 1.配置 2.运行二、Standalone模式 1.配置 1.1 spark env.sh 1.2 slaves 2.运行三、Yarn模式 1.配置 1.1 spark env.sh 1.2 yarn site.xml(yarn) 1.3 spar ...

分类：其他好文时间：2020-01-10 12:53:04 阅读次数：103

spark-调节executor堆外内存

什么时候需要调节Executor的堆外内存大小？当出现一下异常时： shuffle file cannot find，executor lost、task lost，out of memory 出现这种问题的现象大致有这么两种情况：上述情况下，就可以去考虑调节一下executor的堆外内存。也许 ...

分类：其他好文时间：2020-01-10 12:34:38 阅读次数：91

Spark StringIndexer和IndexToString

1、StringIndexer 标签索引器，它将标签的字符串列映射到标签索引的ML列。如果输入列为数字，则将其强制转换为字符串并为字符串值编制索引。索引在[0，numLabels）中。默认情况下，按标签频率排序，因此最常使用的标签的索引为0。 //定义一个StringIndexerModel， ...

分类：其他好文时间：2020-01-10 12:15:12 阅读次数：94

大数据-storm理论

导读：第一节：基础架构 1：编程模型 2：架构 3：数据传输 4：高可靠性 5：高维护性 6：数据处理方式 7：对比MR，SPARK 第二节：计算模型 1：spout 2：bolt 3：stream grouping 4：构建拓扑与提交第三节：架构第四节：部署第五节：数据处理 1：同步计算 ...

分类：其他好文时间：2020-01-09 20:56:24 阅读次数：117

大数据-spark理论(3)sparkSql，sparkStreaming，spark调优

导读目录第一节：sparksql 1：简介 2：核心 3：与hive整合 4：dataFrame 5：函数第二节：spark Streaming 1：对比strom 2：DStream的算子 3：代码 4：driver HA 5：读取数据第三节：spark调优第一节：sparksql （1） ...

分类：数据库时间：2020-01-09 20:46:58 阅读次数：91

大数据-spark理论(2)算子，shuffle优化

导读目录第一节：代码层面 1：RDD创建 2：算子 3：数据持久化算子 4：广播变量 5：累加器 6：开发流程第二节：Shuffle优化层面 1：Shuffle 2：调优第一节：代码层面（1）RDD创建： Java: sc.textfile sc.parallelize() sc.paral ...

分类：其他好文时间：2020-01-09 20:41:14 阅读次数：78

Spark CountVectorizer

1、概念 * CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。 * 当先验字典不可用时，CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。 * 该模型为词汇表上的文档生成稀疏向量 ...

分类：其他好文时间：2020-01-09 17:20:32 阅读次数：108

Spark设置Kryo序列化缓冲区大小

今天在开发SparkRDD的过程中出现Buffer Overflow错误，查看具体Yarn日志后发现是因为Kryo序列化缓冲区溢出了，日志建议调大spark.kryoserializer.buffer.max的value，搜索了一下设置keyo序列化缓冲区的方法，特此整理记录下来。 ...

分类：其他好文时间：2020-01-09 01:34:15 阅读次数：187

共7001条上一页 1 ... 72 73 74 75 76 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)