本文目的 最近使用spark处理较大的数据时,遇到了分区2G限制的问题(ken)。找到了解决方法,并且在网上收集了一些资料,记录在这里,作为备忘。 问题现象 遇到这个问题时,spark日志会报如下的日志, 片段1 15/04/16 14:13:03 WARN scheduler.TaskSetMan...
分类:
其他好文 时间:
2015-04-25 18:01:39
阅读次数:
593
大数据的处理方式有两种:基于内存的流式处理和基于硬盘的存储处理。...
分类:
其他好文 时间:
2015-04-25 09:25:32
阅读次数:
127
今天在使用Spark中DataFrame往Mysql中插入RDD,但是一直报出以下的异常次信息:
[itelbog@iteblog ~]$ bin/spark-submit --master local[2]
--jars lib/mysql-connector-java-5.1.35.jar
--class spark.sparkToJDBC ./spark-test_2.10-1...
分类:
编程语言 时间:
2015-04-24 19:18:59
阅读次数:
248
spark编译: 1、java安装(建议用jdk1.6) 2、编译命令 ./make-distribution.sh --tgz -Phadoop-2.4 -Dhadoop.version=2.6.0 -Pyarn -DskipTests -Phive -Phive-thri...
分类:
其他好文 时间:
2015-04-24 18:34:53
阅读次数:
148
三月中旬,Spark发布了最新的1.3.0版本,其中最重要的变化,便是DataFrame这个API的推出。DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更还快了两倍。这一个小小的API,隐含着Spark希望大一统「大数据江湖」的野心和决心。DataFrame像是一条联结所有主流数据源并自动转化为可并行处理格式的水渠,通过它Spark能...
分类:
其他好文 时间:
2015-04-24 16:19:33
阅读次数:
138
最近老大让用Spark做一个ETL项目,搭建了一套只有三个结点Standalone模式的Spark集群做测试,基础数据量大概8000W左右。看了官方文档,Spark确实在Map-Reduce上提升了很多,可是官方明确提出了在Interactive Data方面性能提升最大。但是做ETL的数据之间是平...
分类:
其他好文 时间:
2015-04-24 00:48:02
阅读次数:
142
1. XMPP1.简介一套即时通讯的协议 XMPP客户端: Spark XMPP服务器: Openfire 客户端的SDK: XMPPFramework (核心)2.库的配置libxml2.dyliblibresolv.dylibCFNetwork.frameworklibidn.aSecurity...
分类:
其他好文 时间:
2015-04-23 21:19:09
阅读次数:
587
我们都知道,Apache Spark内置了很多操作数据的API。但是很多时候,当我们在现实中开发应用程序的时候,我们需要解决现实中遇到的问题,而这些问题可能在Spark中没有相应的API提供,这时候,我们就需要通过扩展Spark
API来实现我们自己的方法。
我们可以通过两种方法来扩展Spark API,(1)、其中一种就是在现有的RDD中添加自定义的方法;(2)、第二种就是创建属于我们自己...
大数据的生态系统图Thinking in BigData(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解浅谈Apache Spark的6个发光点大数据,首先你要能存的下大数据。传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distr...
分类:
其他好文 时间:
2015-04-23 13:09:49
阅读次数:
176
主要是先看MapReduce模型有什么问题?第一:需要写很多底层的代码不够高效,第二:所有的事情必须要转化成两个操作Map/Reduce,这本身就很奇怪,也不能解决所有的情况。其实Spark出现就是为了解决上面的问题。介绍一些Spark的起源。发自 2010年Berkeley AMPLab,发表在h...
分类:
其他好文 时间:
2015-04-23 01:52:15
阅读次数:
249