一天一段scala代码(九)
为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。
package examples
import scala.io.Source
object Example9 extends App {
val source = Source.fromF...
分类:
其他好文 时间:
2015-02-27 20:18:13
阅读次数:
243
一、概述上篇blog记录了些在用spark-sql时遇到的一些问题,今天继续记录用Spark提供的RDD转化方法开发公司第一期标签分析系统(一部分scala作业逻辑代码后面blog再给大家分享)遇到的一些SPARK作业错误信息。其中有些问题可能一些数据量或者shuffle量比较小的作业时不会遇到的..
分类:
其他好文 时间:
2015-02-27 18:34:20
阅读次数:
205
数组排序是一个常见的操作。基于比较的排序算法其性能下限是O(nlog(n)),但在分布式环境下面我们可以并发,从而提高性能。这里展示了Spark中数组排序的实现,并分析了性能,同时尝试找到导致性能提升的原因。...
分类:
编程语言 时间:
2015-02-27 00:23:48
阅读次数:
211
在最新版本的ODI中,通过使用各种知识模块,可在统一的界面上实现对传统数据库、hive, pig, spark, hdfs等的ETL操作,满足在同一系统或采用相同的方式实现ETL功能。详细的内容可参考:http://www.oracle.com/technetwork/database/bigdat...
分类:
数据库 时间:
2015-02-25 15:33:48
阅读次数:
140
1、NetworkWordCount
1.1、开启发送数据的服务器
cd /home/jianxin/spark
java -jar LoggerSimulation.jar 9999 10
java -jar NetworkWordCount.jar localhost 9999
netstat -nalp | grep 9999
lsof -i:99991.2、...
分类:
其他好文 时间:
2015-02-16 14:20:21
阅读次数:
183
一天一段scala代码(八)
为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。
package examples
class Person8
{
var name:String=""
def this(name:String)
{...
分类:
其他好文 时间:
2015-02-15 18:09:22
阅读次数:
128
背景
主体逻辑
具体实现
AM
YarnAllocator
Executor背景Spark on Yarn分yarn-cluster和yarn-client两种模式。
本文通过Cluster模式的TaskScheduler实现入手,梳理一遍spark on yarn的大致实现逻辑。
前提我对两种模式以及yarn任务的整体运行逻辑不是很清楚。
主体逻辑cluster模式中,使用的TaskSche...
分类:
其他好文 时间:
2015-02-15 18:06:53
阅读次数:
215
背景
Mesos粗粒度
Mesos细粒度背景顺着昨天spark standalone实现那篇文章继续扯淡,看看Mesos Scheduler的两种实现的异同。
对我来说,回过头再仔细看Spark在这一层的实现,思路又清晰了许多。Mesos粗粒度CoarseMesosSchedulerBackend,是mesos的粗粒度scheduler backend实现。简单说一下mesos的Scheduler...
分类:
其他好文 时间:
2015-02-15 16:39:01
阅读次数:
641
顺着昨天spark standalone实现那篇文章继续扯淡,看看Mesos Scheduler的两种实现的异同。
对我来说,回过头再仔细看Spark在这一层的实现,思路又清晰了许多。...
分类:
其他好文 时间:
2015-02-13 16:33:58
阅读次数:
430
前言spark与hadoop的比较我就不多说了,除了对硬件的要求稍高,spark应该是完胜hadoop(Map/Reduce)的。storm与spark都可以用于流计算,但storm对应的场景是毫秒级的统计与计算,而spark(stream)对应的是秒级的。这是主要的差别。一般很少有对实时要求那么高...
分类:
其他好文 时间:
2015-02-13 16:09:25
阅读次数:
132