码迷,mamicode.com
首页 >  
搜索关键字:spark rdd    ( 7287个结果
Spark学习(2) Spark SQL
什么事sparkSQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用, 它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快 1)易整合 2)统一的数据访问方式 3)兼容Hive 4)标准 ...
分类:数据库   时间:2019-11-20 21:54:37    阅读次数:91
理解Spark运行模式(二)(Yarn Cluster)
上一篇说到Spark的yarn client运行模式,它与yarn cluster模式的主要区别就是前者Driver是运行在客户端,后者Driver是运行在yarn集群中。yarn client模式一般用在交互式场景中,比如spark shell, spark sql等程序,但是该模式下运行在客户端 ...
分类:其他好文   时间:2019-11-18 22:14:29    阅读次数:101
虚拟机中Spark运行在Yarn上
初始化Centos7vi /etc/sysconfig/network-scripts/ifcfg-ens33DEVICE=ens33TYPE=EthernetONBOOT=yesNM_CONTROLLED=yesBOOTPROTO=staticIPADDR=192.168.3.131GATEWAY ...
分类:其他好文   时间:2019-11-18 12:52:33    阅读次数:64
spark-submit之使用pyspark
在linux下,执行pyspark代码 —— 实测有效 1. 安装pycharm或者spyder,然后在其中编写代码和执行语句 2. 通过job来提交,即spark-submit提交,下面主要讲这种方法 首先假设,自己写的 *.py 文件包含了这些包,即通过import导入 import os fr ...
分类:其他好文   时间:2019-11-17 20:39:47    阅读次数:185
数据结构和算法内容介绍
1 经典的算法题目 1.1 字符串匹配问题 有一个字符串str1="哈哈哈 你好啊好啊 你好啊啊 你好啊好啊啊你好你好好",和一个子串str2="你好啊好啊啊". ①判断str1中是否是否包含str2,如果存在,就返回第一次出现的问题。如果没有,则返回-1. ②要求用最快的速度完成匹配。 思路1:暴 ...
分类:编程语言   时间:2019-11-17 17:31:53    阅读次数:108
Apache Spark 3.0 预览版正式发布,多项重大功能发布
2019年11月08日 数砖的 Xingbo Jiang 大佬给社区发了一封邮件,宣布 Apache Spark 3.0 预览版正式发布,这个版本主要是为了对即将发布的 Apache Spark 3.0 版本进行大规模社区测试。无论是从 API 还是从功能上来说,这个预览版都不是一个稳定的版本,它的 ...
分类:Web程序   时间:2019-11-17 12:48:33    阅读次数:86
Spark源码(1) Spark配置
写熟悉的第一句代码 val conf = new SparkConf().setAppName("WordCount")点击SparkConf() ,发现 private val settings = new ConcurrentHashMap[String, String]() 可见 所有配置都是 ...
分类:其他好文   时间:2019-11-15 22:48:59    阅读次数:156
spark面试题-1
原文链接:https://blog.csdn.net/Lwj879525930/article/details/82559596 1.spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它 ...
分类:其他好文   时间:2019-11-15 22:41:39    阅读次数:120
搭建hadoop+spark+hive环境(配置安装hive)
I、下载并且解压hive #下载hive wget http://apache.claz.org/hive/hive-2.3.6/apache-hive-2.3.6-bin.tar.gz #解压 tar zxf apache-hive-2.3.6-bin.tar.gz #移动到hadoop文件夹中 ...
分类:其他好文   时间:2019-11-15 22:29:48    阅读次数:83
Flink 操作链与任务槽
Operator Chains(操作链) Flink出于分布式执行的目的,将operator的subtask链接在一起形成task(类似spark中的管道)。 每个task在一个线程中执行。 将operators链接成task是非常有效的优化:它可以减少线程与线程间的切换和数据缓冲的开销,并在降低延 ...
分类:其他好文   时间:2019-11-13 22:27:32    阅读次数:504
7287条   上一页 1 ... 91 92 93 94 95 ... 729 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!