搜索关键字：spark sort-based shuffle内幕彻底解密，搜索到7004个结果！码迷,mamicode.com！

搭建Spark分布式集群...

分类：其他好文时间：2015-01-15 20:28:07 阅读次数：374

目前实时或者是准实时的大数据模型越来越多，技术是否先进并非流行的首要原因，社区圈子的繁荣与否才是最重要的。主要有Redshift-亚马逊出品的一款MPP支持PB级别数据库Hive-基于hadoop 上面的SQL引擎，将sql翻译为Map-Reduce任务；Shark- 基于spark计算框架，与Hi...

分类：其他好文时间：2015-01-15 20:08:35 阅读次数：256

Spark1.2集群环境搭建(Standalone+HA) 4G内存5个节点也是蛮拼的

准备工作：1、笔记本4G内存，操作系统WIN72、工具VMware Workstation3、虚拟机：CentOS6.4共五台4、搭建好Hadoop集群( 方便Spark可从HDSF上读取文件，进行实验测试)实验环境：Hadoop HA集群：Iphostnamerole192.168.249.13...

分类：其他好文时间：2015-01-15 12:38:41 阅读次数：237

Scala first trial

scala是一种将面向对象和函数式编程相结合的语言，在spark中大显身手，在大数据时代下，不会scala都不敢说自己是搞大数据的。前段时间参加BDTC2014大数据会议时，spark的贡献者，陈超老师也极力推荐scala，看来scala在今后的大数据中，将扮演越来越重要的角色。尤其是现在，spar...

分类：其他好文时间：2015-01-15 12:26:17 阅读次数：246

linux logrotate 日志文件roll up

log rotatevi /etc/logrotate.d/spark :/apps/svr/spark-1.1.1-bin-cdh4/logs/mercury-spark-span.log{ notifempty daily rotate 5 compress olddir /apps/svr/s...

分类：系统相关时间：2015-01-14 21:13:49 阅读次数：304

SparkStreaming找不到reduceByKey的解决方法

今天写了一个SparkStreaming的测试代码，简单的测试流式读取HDFS中的文件，然后统计WordCount。代码如下：packagecom.company.scala.lk importorg.apache.spark.streaming._ /** *Createdbykaion15/1/14. */ objectSparkStreamingTest{ defloadFile():Unit={ valssc=newStrea..

分类：其他好文时间：2015-01-14 18:21:00 阅读次数：256

线上Spark处理Bzip2引出Hadoop Bzip2线程安全问题

我们的Hadoop生产环境有两个版本，其中一个是1.0.3，为了支持日志压缩和split，我们添加了hadoop-1.2中关于Bzip2压缩的feature. 一切运行良好。为了满足公司对迭代计算的需求(复杂HiveSQL,广告推荐算法，机器学习 etc), 我们构建了自己的Spark集群，最初是Standalone Mode，版本spark-0.9.1,支持Shark。上线后，问题接踵而...

分类：编程语言时间：2015-01-14 11:10:35 阅读次数：403

spark 笔记 1: 如何着手

必读：从官方的开发者页面着手，包括如何构建spark以及编码规范（强烈建议读读编程规范）等；https://cwiki.apache.org/confluence/display/SPARK/Contributing+to+Spark必读：官方文档简介：http://spark.apache.or...

分类：其他好文时间：2015-01-14 06:17:11 阅读次数：202

Checkpoint

应用的场景 1）DAG中Lineage过长，如果要重新计算的，则开销会很大（如在PageRank中）。 2）在Shuffle Dependency上采用Lineage的话，由于子RDD分区中的一个分区可能依赖于父RDD的中所有分区，所以需要对父RDD中的每个区进行计算，因为在子RDD中有可能其它分区也依赖于父RDD中的多个分区，这样就会造成很大的冗余计算开销。传统方式在RDD计算中，通...

分类：其他好文时间：2015-01-13 23:26:27 阅读次数：484

共7004条上一页 1 ... 633 634 635 636 637 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)