码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
RDD分区2GB限制
本文目的 最近使用spark处理较大的数据时,遇到了分区2G限制的问题(ken)。找到了解决方法,并且在网上收集了一些资料,记录在这里,作为备忘。 问题现象 遇到这个问题时,spark日志会报如下的日志, 片段1 15/04/16 14:13:03 WARN scheduler.TaskSetMan...
分类:其他好文   时间:2015-04-25 18:01:39    阅读次数:593
大数据的两种处理方式
大数据的处理方式有两种:基于内存的流式处理和基于硬盘的存储处理。...
分类:其他好文   时间:2015-04-25 09:25:32    阅读次数:127
Spark jar包找不到解决方法
今天在使用Spark中DataFrame往Mysql中插入RDD,但是一直报出以下的异常次信息: [itelbog@iteblog ~]$ bin/spark-submit --master local[2] --jars lib/mysql-connector-java-5.1.35.jar --class spark.sparkToJDBC ./spark-test_2.10-1...
分类:编程语言   时间:2015-04-24 19:18:59    阅读次数:248
spark入门
spark编译: 1、java安装(建议用jdk1.6) 2、编译命令 ./make-distribution.sh --tgz -Phadoop-2.4 -Dhadoop.version=2.6.0 -Pyarn -DskipTests -Phive -Phive-thri...
分类:其他好文   时间:2015-04-24 18:34:53    阅读次数:148
Spark DataFrame小试牛刀
三月中旬,Spark发布了最新的1.3.0版本,其中最重要的变化,便是DataFrame这个API的推出。DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更还快了两倍。这一个小小的API,隐含着Spark希望大一统「大数据江湖」的野心和决心。DataFrame像是一条联结所有主流数据源并自动转化为可并行处理格式的水渠,通过它Spark能...
分类:其他好文   时间:2015-04-24 16:19:33    阅读次数:138
Spark及其应用场景初探
最近老大让用Spark做一个ETL项目,搭建了一套只有三个结点Standalone模式的Spark集群做测试,基础数据量大概8000W左右。看了官方文档,Spark确实在Map-Reduce上提升了很多,可是官方明确提出了在Interactive Data方面性能提升最大。但是做ETL的数据之间是平...
分类:其他好文   时间:2015-04-24 00:48:02    阅读次数:142
XPML
1. XMPP1.简介一套即时通讯的协议 XMPP客户端: Spark XMPP服务器: Openfire 客户端的SDK: XMPPFramework (核心)2.库的配置libxml2.dyliblibresolv.dylibCFNetwork.frameworklibidn.aSecurity...
分类:其他好文   时间:2015-04-23 21:19:09    阅读次数:587
Spark RDD API扩展开发(1)
我们都知道,Apache Spark内置了很多操作数据的API。但是很多时候,当我们在现实中开发应用程序的时候,我们需要解决现实中遇到的问题,而这些问题可能在Spark中没有相应的API提供,这时候,我们就需要通过扩展Spark API来实现我们自己的方法。 我们可以通过两种方法来扩展Spark API,(1)、其中一种就是在现有的RDD中添加自定义的方法;(2)、第二种就是创建属于我们自己...
分类:Windows程序   时间:2015-04-23 17:29:59    阅读次数:170
大数据工程的生态系统图
大数据的生态系统图Thinking in BigData(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解浅谈Apache Spark的6个发光点大数据,首先你要能存的下大数据。传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distr...
分类:其他好文   时间:2015-04-23 13:09:49    阅读次数:176
与 Hadoop 对比,如何看待 Spark 技术?
主要是先看MapReduce模型有什么问题?第一:需要写很多底层的代码不够高效,第二:所有的事情必须要转化成两个操作Map/Reduce,这本身就很奇怪,也不能解决所有的情况。其实Spark出现就是为了解决上面的问题。介绍一些Spark的起源。发自 2010年Berkeley AMPLab,发表在h...
分类:其他好文   时间:2015-04-23 01:52:15    阅读次数:249
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!