搜索关键字：内幕，搜索到651个结果！码迷,mamicode.com！

第15课：RDD创建内幕彻底解密

本节课主要内容：1、RDD创建的几种方式2、RDD创建实战3、RDD内幕RDD创建有很多种方式，以下几种创建RDD的方式：1、使用程序中的集合创建RDD，实际意义用于测试用；2、使用本地文件系统创建RDD，测试大量数据的文件；3、使用HDFS创建RDD，最常用的方式；4、基于DB创建RDD;5、基..

分类：其他好文时间：2016-05-14 01:15:21 阅读次数：119

day63-Spark SQL下Parquet内幕深度解密

ＤＴ大数据梦工厂联系方式：新浪微博：www.weibo.com/ilovepains/微信公众号：DT_Spark博客：http://.blog.sina.com.cn/ilovepains一：sparkSQL 下的Parquet意义再思考存储空间包括：内存和磁盘，计算方面如果说HDFS是大数据时代分布式文件系统存储的事实标准的话，parquet则是整个大数据时代文件存储格式的事实标准。1、速度...

分类：数据库时间：2016-05-13 02:00:33 阅读次数：275

day61-Spark SQL数据加载和保存内幕深度解密实战

Spark SQL加载数据 SparkSQl 数据输入输入输出主要是DataFrame，DataFrame提供了一些通用的load和save操作。通过load可以创建出DataFrame；通过save可以将DataFrame数据保存到文件中或者说以具体的格式来指明要读取的文件是什么格式或者输出的数据是什么格式；直接读取文件的指定类型： SQLContext源码： load 和sa...

分类：数据库时间：2016-05-13 01:11:30 阅读次数：350

第99课：使用Spark Streaming+Kafka实战对论坛网站动态行为的多维度分析及java.lang.NoClassDefFoundError问题解决完整内幕版本解密

第99课：使用Spark Streaming 实战对论坛网站动态行为的多维度分析 /* 王家林老师授课http://weibo.com/ilovepains 每天晚上20：00YY频道现场授课频道68917580*/ /** * *第99课：使用Spark Streaming 实战对论坛网站动态行为的多维度分析 * 论坛数据自动生成代码，该生成的数据会作为Producer的方式发送给...

分类：编程语言时间：2016-05-12 22:46:54 阅读次数：371

第93讲：Spark Streaming updateStateByKey案例实战和内幕源码

本节课程主要分二个部分：一、Spark Streaming updateStateByKey案例实战二、Spark Streaming updateStateByKey源码解密第一部分： updateStateByKey它的主要功能是随着时间的流逝，在Spark Streaming中可以为每一个key可以通过CheckPoint来维护一份state状态，通过更新函数对该k...

分类：其他好文时间：2016-05-12 11:43:05 阅读次数：176

Hadoop书籍汇总

《Hadoop实战》陆嘉恒《Hadoop - The Definitive Guide》Tom White，中文版《Hadoop权威指南》《Hadoop技术内幕-深入理解MapReduce架构设计与实现原理》董西成《Hadoop技术内幕-深入解析HADOOP COMMON和HDFS架构设计与实 ...

分类：其他好文时间：2016-05-10 23:26:40 阅读次数：124

跟我一起学习MySQL技术内幕（第五版）：（第三章学习日记3）

3.2MySQL数据类型 3.2.1数据类型概述 3.2.2表定义里的特殊列类型 3.2.3指定列的默认值...

分类：数据库时间：2016-05-08 06:46:56 阅读次数：234

跟我一起学习MySQL技术内幕（第五版）：（第三章学习日记2上）

3.1.2字符串值 3.1.2.1字符串类型与字符集支持 3.1.2.2字符集相关的系统变量...

分类：数据库时间：2016-05-06 12:21:48 阅读次数：235

第43课：Spark 1.6 RPC内幕解密：运行机制、源码详解、Netty与Akka等

Spark是分布式计算框架，多台机器之间必然存在着通信。Spark在早期版本采用Akka实现。现在在Akka的上层抽象出了一个RpcEnv。RpcEnv负责管理机器之间的通信。RpcEnv包含了如下三大核心：RpcEndpoint消息循环体，负责接收并处理消息。Spark中的Master、Worker都是RpcEndpoint。Rp..

分类：Web程序时间：2016-05-06 02:28:50 阅读次数：4751

Spark Shuffle内幕解密（24）

一、到底什么是Shuffle？Shuffle中文翻译为“洗牌”，需要Shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚到一个计算节点上进行计算。二、Shuffle可能面临的问题？1，数据量非常大；2，数据如何分类，即如何Partition，Hash、Sort、钨丝计算；3，负载均衡（数据倾斜..

分类：其他好文时间：2016-05-04 06:48:59 阅读次数：195

共651条上一页 1 ... 26 27 28 29 30 ... 66 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)