MicrosoftInternetExplorer402DocumentNotSpecified7.8 磅Normal0 Nginx + Lua + Cookie 控制灰度发布 一、下载安装 1、安装 OpenResty下载页、 openresty-1.15.8.2.tar.gz包(点击下载)、包版 ...
分类:
其他好文 时间:
2019-12-06 19:55:28
阅读次数:
159
Spark Streaming应用也是Spark应用,Spark Streaming生成的DStream最终也是会转化成RDD,然后进行RDD的计算,所以Spark Streaming最终的计算是RDD的计算,那么Spark Streaming的原理当然也包含了Spark应用通用的原理。Spark ...
分类:
其他好文 时间:
2019-11-29 18:27:58
阅读次数:
85
Spark的官方文档再三强调那些将要作用到RDD上的操作,不管它们是一个函数还是一段代码片段,它们都是“闭包”,Spark会把这个闭包分发到各个worker节点上去执行,这里涉及到了一个容易被忽视的问题:闭包的“序列化”。 显然,闭包是有状态的,这主要是指它牵涉到的那些自由变量以及自由变量依赖到的其 ...
分类:
其他好文 时间:
2019-11-27 23:17:08
阅读次数:
105
基本概念: Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度。是一个分布式计算框架,旨在简化运行于计算机集群上的并行程序的编写。RDD:是spark核心数据处理模型,弹性分布式数据集(Resilient Distributed Dataset)是分布式内存的一 ...
分类:
其他好文 时间:
2019-11-26 16:12:00
阅读次数:
95
图片的复制无非有两种方法,一种是图片直接上传到服务器,另外一种转换成二进制流的base64码 目前限chrome浏览器使用,但是项目要求需要支持所有的浏览器,包括Windows和macOS系统。没有办法在网上搜了很多资料终于找到一个产品:WordPaster。 浏览器方面能够支持ie6,ie7,ie ...
分类:
其他好文 时间:
2019-11-26 13:10:32
阅读次数:
112
? 一,什么是RDD? 官方定义 :RDD是弹性分布式数据集。 1. 不可变的:类似于scala中的不可变集合,对集合进行转换操作的时候,产生新的集合RDD。 2. 分区的:每个RDD集合有多个分区组成,分区就是很多部分。 3. 并行操作:对RDD集合中的数据操作时,可以同时对所有的分区并行操作 五 ...
分类:
其他好文 时间:
2019-11-22 15:28:06
阅读次数:
62
1. hdfs存文件的时候会把文件切割成block,block分布在不同节点上,目前设置replicate=3,每个block会出现在3个节点上。 2. Spark以RDD概念为中心运行,RDD代表抽象数据集。以代码为例: sc.textFile(“abc.log”) textFile()函数会创建 ...
分类:
其他好文 时间:
2019-11-22 13:26:33
阅读次数:
63
什么事sparkSQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用, 它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快 1)易整合 2)统一的数据访问方式 3)兼容Hive 4)标准 ...
分类:
数据库 时间:
2019-11-20 21:54:37
阅读次数:
91
原文链接:https://blog.csdn.net/Lwj879525930/article/details/82559596 1.spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它 ...
分类:
其他好文 时间:
2019-11-15 22:41:39
阅读次数:
120
Spark SQL 增加了DataFrame 即带有Schema信息的RDD DataFrame 创建 启动pyspark(由于内存不够 启动本地,模式) pyspark --master local pyspark 自动生成 sc,sparksession from pyspark import ...
分类:
数据库 时间:
2019-11-09 22:07:07
阅读次数:
95