码迷,mamicode.com
首页 >  
搜索关键字:spark rdd    ( 7287个结果
Spark基础
RDD是只读记录分区的集合 ,只能通过在其他RDD执行确定的转换操作(如map、join和groupBy)或直接读取外部存储而创建,然而这些限制使得实现容错的开销很低。与分布式共享内存系统需要付出高昂代价的检查点和回滚机制不同, RDD通过Lineage来重建丢失的分区 ; 一个RDD包含如何从其他 ...
分类:其他好文   时间:2019-09-29 16:47:35    阅读次数:105
spark streaming kafka
SparkStreaming+Kafka ?kafka是什么,有哪些特点 ?SparkStreaming+Kafka有什么好处 –解耦 –缓冲 消息列队的特点 生产者消费者模式 ?可靠性保证 –自己不丢数据 –消费者不丢数据:“至少一次,严格一次” broker n. 经纪人,掮客 vt. 以中间人... ...
分类:其他好文   时间:2019-09-28 00:47:33    阅读次数:116
spark端口号
50070:HDFSwebUI的端口号 8485:journalnode默认的端口号 9000:非高可用访问数rpc端口 8020:高可用访问数据rpc 8088:yarn的webUI的端口号 8080:master的webUI,Tomcat的端口号 7077:spark基于standalone的提 ...
分类:其他好文   时间:2019-09-27 19:34:16    阅读次数:365
Spark集群-Standalone 模式
Spark 集群相关 来源于官方, 可以理解为是官方译文, 外加一点自己的理解. 版本是2.4.4 本篇文章涉及到: 集群概述 master, worker, driver, executor的理解 打包提交,发布 Spark application standalone模式 SparkCluste ...
分类:其他好文   时间:2019-09-27 19:01:08    阅读次数:111
ML Pipelines
一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出。这非常类似于流水线式工作,即通常会包含源数据ETL(抽取、转化、加载),数据预处理,指标提取,模型训练与交叉验证,新数据预测等步骤。 一、定义: DataFrame:使用Spark SQL中的DataFrame作为数据集,它可 ...
分类:其他好文   时间:2019-09-27 15:23:34    阅读次数:103
基于Docker搭建大数据集群(六)Hive搭建
基于Docker搭建大数据集群(六)Hive搭建 前言 之前搭建的都是1.x版本,这次搭建的是 hive3.1.2 版本的。。还是有一点细节不一样的 Hive现在解析引擎可以选择spark,我是用 spark 做解析引擎的,存储还是用的HDFS 我是在 docker 里面搭建的集群,所以都是基于do ...
分类:其他好文   时间:2019-09-27 12:19:45    阅读次数:107
spark streaming
discretized 离散化的 http://spark.apache.org/docs/1.6.0/streaming-programming-guide.html#overview [root@node5 ~]# yum install nc [root@node5 ~]# nc -lk 99... ...
分类:其他好文   时间:2019-09-27 01:16:55    阅读次数:71
Windows 下部署 hadoop spark环境
一、先在本地安装jdk 我这里安装的jdk1.8,具体的安装过程这里不作赘述 二、部署安装maven 下载maven安装包,并解压 设置环境变量,MAVEN_HOME=D:\SoftWare\Maven\apache-maven-3.6.1 在path路径添加;%MAVEN_HOME%\bin 打开 ...
分类:Windows程序   时间:2019-09-26 11:31:10    阅读次数:139
spark-sql
您好 ...
分类:数据库   时间:2019-09-26 10:10:30    阅读次数:103
2-Spark-1-性能调优-数据倾斜2-Join/Broadcast的使用场景
技术点:RDD的join操作可能产生数据倾斜,当两个RDD不是非常大的情况下,可以通过Broadcast的方式在reduce端进行类似(Join)的操作: broadcast是进程级别的,只读的。 broadcast 可以适用于小表的广播,通过广播到对应节点的内存中(受blockManager的管理 ...
分类:其他好文   时间:2019-09-26 00:12:48    阅读次数:124
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!