1、下载 http://archive.apache.org/dist/spark/spark 2.4.1/spark 2.4.1 bin hadoop2.7.tgz 2、解压 3、配置环境变量SPARK_HOME vim /etc/profile 或者 vim ~/.bashrc source / ...
分类:
系统相关 时间:
2019-12-10 00:55:19
阅读次数:
79
本地模式Spark单机运行,一般用于开发测试。Standalone模式构建一个由Master+Slave构成的Spark集群,Spark运行在集群中。Spark on Yarn模式Spark客户端直接连接Yarn。不需要额外构建Spark集群。Spark on Mesos模式Spark客户端直接连接 ...
分类:
其他好文 时间:
2019-12-09 21:11:23
阅读次数:
237
前言Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedi
分类:
其他好文 时间:
2019-12-09 18:50:02
阅读次数:
101
大数据由一系列技术组成,那他们之间的关系是怎么组成的ne,请看下图: hadoop主要做了文件存储系统和提供了一个相对比较弱的mr处理数据的方案 hive是在mr和文件存储系统上面做的升级。 sprak+hbase+hadoop主要解决的是hadoop实时处理数据比较弱的问题 ...
分类:
Web程序 时间:
2019-12-08 10:27:19
阅读次数:
116
1.自定义 schema(Rdd[Row] => DataSet[Row]) 2.借助 case class 隐式转换(Rdd[Person] => DataSet[Row]) 3.直接从数据源创建 此外 233 ...
分类:
其他好文 时间:
2019-12-07 16:18:20
阅读次数:
620
背景 项目有表格功能,表格过大,一个一个填,过于麻烦。 需要从excel表复制的功能。 过程 监听paste事件,根据事件提供的clipboardData属性,获取数据。 根据换行符 \n 和tab符 \t ,处理数据,获得二维数组。 代码 1 this.$refs.commonSizeTable. ...
分类:
Web程序 时间:
2019-12-07 14:33:36
阅读次数:
178
MicrosoftInternetExplorer402DocumentNotSpecified7.8 磅Normal0 Nginx + Lua + Cookie 控制灰度发布 一、下载安装 1、安装 OpenResty下载页、 openresty-1.15.8.2.tar.gz包(点击下载)、包版 ...
分类:
其他好文 时间:
2019-12-06 19:55:28
阅读次数:
159
其实Rocketmq的给第三方的插件已经全了,如果大家有兴趣的话请移步https://github.com/apache/rocketmq-externals。本文主要是结合笔者已有的rmq在spark中的应用经验对rocketmq做简单介绍以及经验总结,当然免不了会将rocketmq和如今特别火爆 ...
分类:
其他好文 时间:
2019-12-06 18:59:15
阅读次数:
409
好用的python模块 可自动导入模块的pyforest 安装模块后,可以直接按配置文件中设置的需要调用的模块名称使用模块 设置 编辑 默认配置在 中 使用 jupyter 可以自动导入,其他环境需要手动导入 查看已自动导入的模块 ...
分类:
编程语言 时间:
2019-12-06 17:39:16
阅读次数:
121
spark submit 参数及其调优https://blog.csdn.net/guohecang/article/details/52088117 Spark配置参数详解 一.yarn模式下一个示例:./bin/spark-submit \ --master yarn-cluster \ --n ...
分类:
其他好文 时间:
2019-12-06 16:25:50
阅读次数:
103