搜索关键字：spark sort-based shuffle内幕彻底解密，搜索到7004个结果！码迷,mamicode.com！

大数据应用领域

聚类模型属于飞溅读式挖掘模型，以用户属性、行为、消费等特征数据为输入，将用户自动聚类为若干类，通常用来挖掘潜在目标客户群体，也可以用在大数据营销工具、CRM工具和防欺诈解决方案上。分类预测模型分析学习历史数据经验，预测分析未来数据发展方向。模型输出是离散数据或类别的称为分类模型，模型输出是数值类型数据的模型称为数值预测模型。分类模型根据训练数据集的类别号属性，学习现有分类数据的分类规...

分类：其他好文时间：2014-12-31 16:22:19 阅读次数：161

2015年计划

2015年其实才真正算的上是我的大数据元年，我需要在这一年中为自己的职业发展打好地基，所以需要做到但不限于：1、熟练使用mr,yarn,spark(spark sql,spark streaming,ml....),hive,mahout,hbase进行开发，并熟悉调优，及其中的执行原理。2、阅读f...

分类：其他好文时间：2014-12-31 07:35:26 阅读次数：219

Spark on Yarn ”爬坑“集锦（spark1.2）

一、概述Ha,已经有两个月没有更新blog了。由于近排公司需要引入Spark相关技术，我也是作为技术攻关人员之一，在这段时间使用Spark遇到了挺多问题，跌的坑也比较多，这篇blog主要总结一下这段时间使用Spark遇到的一些问题。二、遇到的"坑"和爬坑思路1、SparkSqlonyarn-client模..

分类：其他好文时间：2014-12-31 06:34:20 阅读次数：1157

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节②

三，深入RDD RDD本身是一个抽象类，具有很多具体的实现子类： RDD都会基于Partition进行计算： ? 默认的Partitioner如下所示：其中HashPartitioner的文档说明如下：另外一种常用的Partitioner是RangePartitio...

分类：其他好文时间：2014-12-29 23:10:11 阅读次数：540

spark编译安装及部署

1、下载并编译spark源码下载sparkhttp://spark.apache.org/downloads.html我下载的是1.2.0版本解压并编译，在编译前，可以根据自己机器的环境修改相应的pom.xml配置，我的环境是hadoop2.4.1修改个小版本号即可，编译包括了对hive、yarn、ganglia等的支持tarxzf~/source/spark-1..

分类：其他好文时间：2014-12-29 18:36:06 阅读次数：5133

1 Scala基本概念 +IDE

Scala基本概念 +IDE 推荐：《Scala编程》1 基本概念在Spark开发中，Scala被认为是目前和Spark兼容最好的语言。 Scala运行在标准的java平台，可以与java无缝交互。 Scala是一种把面向对象和函数式编程加入静态类型语言的混合体。特点：面向对象 Sc...

分类：其他好文时间：2014-12-28 15:23:39 阅读次数：636

使用Intellij IDEA构建spark开发环境

近期开始研究学习spark，开发环境有多种，由于习惯使用STS的maven项目，但是按照许多资料的方法尝试以后并没有成功，也可能是我环境问题；也可以是用scala中自带的eclipse，但是不太习惯，听说支持也不太好，好多问题；咨询一些人后说，IDEA对scala的支持比较好。所以尝试使用IDE.....

分类：其他好文时间：2014-12-26 16:13:26 阅读次数：196

Spark简介

简介:spark是一个内存计算框架,解决了mapreduce在迭代与交互方面的不足迭代:多轮算法计算形式,pagerank,逻辑回归等交互:实时数据,数据仓库查询等spark重要概念:RDD: 弹性分布式数据集,弹性(数据多节点分片)分布式(集群节点)数据集(默认加载至内存)操作:转换(transformation)rdd..

分类：其他好文时间：2014-12-26 14:47:34 阅读次数：186

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第2节：Spark架构设计(2)

三，Spark的RDD在Spark中一切都是以RDD为基础和核心的：每个RDD的API如下所示：Spark官方文档中给出了的众多的RDD：RDD中的操作分为transformations和actions两种：下面举一个例子来说明RDD的使用：另外有两个特殊的RDD:他们都是controllingop...

分类：其他好文时间：2014-12-26 14:25:08 阅读次数：116

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节：Spark架构设计(2)

三，深入RDD RDD本身是一个抽象类，具有很多具体的实现子类：RDD都会基于Partition进行计算：默认的Partitioner如下所示：其中HashPartitioner的文档说明如下：另外一种常用的Partitioner是RangePartitioner：RDD在持久化的需要考虑内存策略：...

分类：其他好文时间：2014-12-26 14:21:43 阅读次数：183

共7004条上一页 1 ... 637 638 639 640 641 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)