搜索关键字：spark 安装、介绍，搜索到7164个结果！码迷,mamicode.com！

Spark开发指南

简介总的来说，每一个Spark应用程序，都是由一个驱动程序组成，它运行用户的main函数，并且在一个集群上执行各种各样的并行操作。Spark提供的主要的抽象（概念）是一个弹性分布式数据集，它是一个元素集合，划分到集群的不同节点上，可以被并行操作。RDDs的创建可以从Hadoop文件系统（或者任何...

分类：其他好文时间：2015-08-09 10:48:07 阅读次数：149

Spark 1.4.1中Beeline使用的gc overhead limit exceeded

最近使用SparkSQL做数据的打平操作，就是把多个表的数据经过关联操作导入到一个表中，这样数据查询的过程中就不需要在多个表中查询了，在数据量大的情况下，这样大大提高了查询效率。我启动了thriftserver,然后通过beeline去连接thriftserver，打平操作进行的很顺利，但是在执行...

分类：其他好文时间：2015-08-09 00:24:31 阅读次数：329

DT大数据梦工厂第81讲

DT大数据梦工厂第81讲http://yun.baidu.com/s/1uLFye本节王老师讲了list的逆变，协变，下界。abstaract class Big_Dataclass Hadoop extends Big_Data//一种类型class Spark extends Big_Dat...

分类：其他好文时间：2015-08-09 00:14:41 阅读次数：209

使用Snappy 压缩方式报错“java.lang.UnsatisfiedLinkError: no snappyjava in java.library.path”

情况描述其实这个问题已经困扰我很久了，最近在公司Linux上搭建hadoop 和 spark环境的时候，我就遇到 spark提交作业到yarn 集群就报错这个错，当时已经安装snappy环境了，任何关于snappy静态库都编译了，这是我提交到spark mail list上的http://apache-spark-user-list.1001560.n3.nabble.com/java-lang-U...

分类：移动开发时间：2015-08-08 21:27:50 阅读次数：383

Apache Spark源码走读之2 -- Job的提交与运行

转载自：http://www.cnblogs.com/hseagle/p/3673123.html概要本文以wordCount为例，详细说明spark创建和运行job的过程，重点是在进程及线程的创建。实验环境搭建在进行后续操作前，确保下列条件已满足。下载spark binary 0.9.1安装sca...

分类：Web程序时间：2015-08-08 18:06:52 阅读次数：123

Apache Spark源码走读之1 -- Spark论文阅读笔记

2015-08-08 16:16PM 公司加班

分类：Web程序时间：2015-08-08 18:02:08 阅读次数：134

Spark Streaming编程示例

近期也有开始研究使用spark streaming来实现流式处理。本文以流式计算word count为例，简单描述如何进行spark streaming编程。1. 依赖的jar包参考《分别用Eclipse和IDEA搭建Scala+Spark开发环境》一文，pom.xml中指定依赖库spark-str...

分类：其他好文时间：2015-08-08 01:16:50 阅读次数：152

Scala 深入浅出实战经典第51讲：Scala中链式调用风格的实现代码实战及其在Spark中应用

王家林亲授《DT大数据梦工厂》大数据实战视频 Scala 深入浅出实战经典（1-64讲）完整视频、PPT、代码下载：百度云盘：http://pan.baidu.com/s/1c0noOt6 腾讯微云：http://url.cn/TnGbdC 360云盘：http://yunpan.cn/cQ4c2U...

分类：其他好文时间：2015-08-07 22:11:38 阅读次数：167

Hadoop实战第一篇

前言：都说现在是草根为尊的时代，近年来hadoop及spark技术在国内越来越流行。而且渐渐现成为企业的新宠。在DT时代全面来临之前，能提早接触大数据的技术必然能先人一步。本文作为Hadoop系列的第一篇，将HDFS和MapRed两个技术核心用2个实例简单实现一些，希望能供hadoop入门的朋友....

分类：其他好文时间：2015-08-07 21:51:27 阅读次数：152

Spark RDD API详解(一) Map和Reduce

RDD是什么？ RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分，将介绍S...

分类：Windows程序时间：2015-08-07 20:18:41 阅读次数：130

共7164条上一页 1 ... 578 579 580 581 582 ... 717 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)