码迷,mamicode.com
首页 >  
搜索关键字:spark sort-based shuffle内幕彻底解密    ( 7004个结果
搭建Spark分布式集群
搭建Spark分布式集群...
分类:其他好文   时间:2015-01-15 20:28:07    阅读次数:374
大数据的实时技术
目前实时或者是准实时的大数据模型越来越多,技术是否先进并非流行的首要原因,社区圈子的繁荣与否才是最重要的。主要有Redshift-亚马逊出品的一款MPP支持PB级别数据库Hive-基于hadoop 上面的SQL引擎,将sql翻译为Map-Reduce任务;Shark- 基于spark计算框架,与Hi...
分类:其他好文   时间:2015-01-15 20:08:35    阅读次数:256
Spark1.2集群环境搭建(Standalone+HA) 4G内存5个节点也是蛮拼的
准备工作:1、笔记本4G内存 ,操作系统WIN72、工具VMware Workstation3、虚拟机:CentOS6.4共五台4、搭建好Hadoop集群( 方便Spark可从HDSF上读取文件,进行实验测试)实验环境:Hadoop HA集群:Iphostnamerole192.168.249.13...
分类:其他好文   时间:2015-01-15 12:38:41    阅读次数:237
Scala first trial
scala是一种将面向对象和函数式编程相结合的语言,在spark中大显身手,在大数据时代下,不会scala都不敢说自己是搞大数据的。前段时间参加BDTC2014大数据会议时,spark的贡献者,陈超老师也极力推荐scala,看来scala在今后的大数据中,将扮演越来越重要的角色。尤其是现在,spar...
分类:其他好文   时间:2015-01-15 12:26:17    阅读次数:246
linux logrotate 日志文件roll up
log rotatevi /etc/logrotate.d/spark :/apps/svr/spark-1.1.1-bin-cdh4/logs/mercury-spark-span.log{ notifempty daily rotate 5 compress olddir /apps/svr/s...
分类:系统相关   时间:2015-01-14 21:13:49    阅读次数:304
SparkStreaming找不到reduceByKey的解决方法
今天写了一个SparkStreaming的测试代码,简单的测试流式读取HDFS中的文件,然后统计WordCount。代码如下:packagecom.company.scala.lk importorg.apache.spark.streaming._ /** *Createdbykaion15/1/14. */ objectSparkStreamingTest{ defloadFile():Unit={ valssc=newStrea..
分类:其他好文   时间:2015-01-14 18:21:00    阅读次数:256
线上Spark处理Bzip2引出Hadoop Bzip2线程安全问题
我们的Hadoop生产环境有两个版本,其中一个是1.0.3,为了支持日志压缩和split,我们添加了hadoop-1.2中关于Bzip2压缩的feature. 一切运行良好。 为了满足公司对迭代计算的需求(复杂HiveSQL,广告推荐算法,机器学习 etc), 我们构建了自己的Spark集群,最初是Standalone Mode,版本spark-0.9.1,支持Shark。 上线后,问题接踵而...
分类:编程语言   时间:2015-01-14 11:10:35    阅读次数:403
spark 笔记 1: 如何着手
必读:从官方的开发者页面着手,包括如何构建spark以及编码规范(强烈建议读读编程规范)等;https://cwiki.apache.org/confluence/display/SPARK/Contributing+to+Spark必读: 官方文档简介:http://spark.apache.or...
分类:其他好文   时间:2015-01-14 06:17:11    阅读次数:202
Checkpoint
应用的场景 1)DAG中Lineage过长,如果要重新计算的,则开销会很大(如在PageRank中)。 2)在Shuffle Dependency上采用Lineage的话,由于子RDD分区中的一个分区可能依赖于父RDD的中所有分区,所以需要对父RDD中的每个区进行计算,因为在子RDD中有可能其它分区也依赖于父RDD中的多个分区,这样就会造成很大的冗余计算开销。 传统方式 在RDD计算中,通...
分类:其他好文   时间:2015-01-13 23:26:27    阅读次数:484
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!