码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
kafka安装
最近做一个项目的POC测试,打通了DB2->OGG->KAFKA->SPARK STREAMING->SEQUOIADB整套流程, 完成数据的实时更新,下面讲下kafka的安装kafka的安装需要zookeeper,kafka自己带了zookeeper组件,只要自己配置下config/zoookee...
分类:其他好文   时间:2015-05-22 13:07:36    阅读次数:187
Spark安装简介
1.简介 Spark 是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速,由加州大学伯克利分校 AMP 实验室 (Algorithms,Machines,and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。spark-sql还能提供比较完整的sql的功能....
分类:其他好文   时间:2015-05-21 22:29:03    阅读次数:201
有了Hadoop MapReduce, 为什么还要Spark?
a. 由于MapReduce的shuffle过程需写磁盘,比较影响性能;而Spark利用RDD技术,计算在内存中进行.b. MapReduce计算框架(API)比较局限, 而Spark则是具备灵活性的并行计算框架.c. 再说说Spark API方面- Scala: Scalable Language...
分类:其他好文   时间:2015-05-21 18:50:09    阅读次数:169
Ubuntu下Spark开发环境搭建
Ubuntu 64基本环境配置 安装JDK,下载jdk-8u45-linux-x64.tar.gz,解压到/opt/jdk1.8.0_45 ???????????下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html 安装scala,下载...
分类:系统相关   时间:2015-05-21 13:00:25    阅读次数:689
RDD的持久化
Spark最重要的一个功能,就是在不同操作间,持久化(或缓存)一个数据集在内存中。当你持久化一个RDD,每一个结点都将把它的计算分块结果保存在内存中,并在对此数据集(或者衍生出的数据集)进行的其它动作中重用...
分类:其他好文   时间:2015-05-20 18:53:15    阅读次数:264
RDD的持久化
Spark最重要的一个功能,就是在不同操作间,持久化(或缓存)一个数据集在内存中。当你持久化一个RDD,每一个结点都将把它的计算分块结果保存在内存中,并在对此数据集(或者衍生出的数据集)进行的其它动作中重用。这将使得后续的动作(Actions)变得更加迅速(通常快10倍)。缓存是用Spark构建迭代...
分类:其他好文   时间:2015-05-20 18:14:07    阅读次数:147
基于spark1.3.1的spark-sql实战-02
Hive Tables 将HIVE_HOME/conf/hive-site.xml?文件copy到SPARK_HOME/conf/下 ?When not configured by the hive-site.xml, the context automatically creates?metastore_db?and?warehouse?in the current ...
分类:数据库   时间:2015-05-20 16:34:51    阅读次数:289
spark优化之并行度
这个其实我前面已经记录过了,这里在记录一下。我可以通过参数人为的来控制分区大小,增加分区中即可增加任务的并行度,并行度高自然运行的就快了嘛。官方推荐集群中每个cpu并行的任务是2-3个(也就是2-3个partition),这样对于资源使用是最充分的那么如何调整并行度呢。在类似 sc.textFile...
分类:其他好文   时间:2015-05-20 12:40:42    阅读次数:414
Spark优化之gc
对于官方Programming Guides的GC优化一节做了阅读。在这里记录一下我的理解,可能记录的比较混乱没有条理:我理解其实GC优化的主要目的就是在你的任务执行中使用更少的内存,进行更少的gc回收,因为GC回收会使你的任务执行的更慢。使用-verbose:gc -XX:+PrintGCDeta...
分类:其他好文   时间:2015-05-20 08:15:33    阅读次数:121
spark优化之数据结构(减少内存)
官网是这么说的:The first way to reduce memory consumption is to avoid the Java features that add overhead, such as pointer-based data structures and wrapper ...
分类:其他好文   时间:2015-05-19 20:29:33    阅读次数:146
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!