搜索关键字：spark streaming jobscheduler，搜索到7564个结果！码迷,mamicode.com！

ubuntu12.04上搭建darwin streaming server6.03

个人建议：使用DarwinStreamingSrvr5.5.5，因为DarwinStreamingSrvr6.0.3安装过程中有很多问题需要解决！而且安装只需执行./Install就可以！1：下载darwin源代码DarwinStreamingSrvr6.0.3-Source.tar,补丁patch...

分类：Windows程序时间：2015-01-04 16:38:31 阅读次数：252

Linux编译安装Darwin Streaming Server 6.0.3

买回来VPS后就一直想在上面搭建一个流媒体服务，在网上搜索了很多资料，大部分都是介绍Linux中安装Darwin Streaming Server 5.5.5版本，因为这个版本提供了针对linux的安装脚本。但既然官网有了6.0.3版本，于是果断尝试安装最新的版本。1、什么是Darwin Strea...

分类：Windows程序时间：2015-01-04 16:35:20 阅读次数：240

spark搭建环境涉及的linux命令（简单易用型（勿喷））

从一台服务器负责内容到另一台服务器： scp jdk-6u37-linux-x64.bin spark@10.126.45.56:/home/spark/opt tar压缩和解压文件: 压缩 tar -cvf java.tar.gz java/ 解压: tar -xvf java.tar.gz 配置java环境变量: 去各种地方下载 jdk程序包：jdk-6u3...

分类：系统相关时间：2015-01-04 15:20:05 阅读次数：250

关于yarn的spark配置属性

分类：其他好文时间：2015-01-04 15:12:11 阅读次数：825

Spark 与 Hadoop 关于 TeraGen/TeraSort 的对比实验(包含源代码)

自从 Hadoop 问世以来，MapReduce 在很长时间内都是排序基准测试的纪录保持者，但这一垄断在最近被基于内存计算的 Spark 打破了。在今年Databricks与AWS一起完成的一个Daytona Gray类别的Sort Benchmark中，Spark 完胜 Hadoop MapReduce：“1/10计算资源，1/3耗时”。这是个很有意思的对比实验，因此笔者也在一个小规模集群上做了一个微缩版的类似试验。...

分类：其他好文时间：2015-01-03 22:30:20 阅读次数：286

Spark与Hadoop MapReduce的对比分析

Spark与Hadoop MapReduce均为开源集群计算系统，但是两者适用的场景并不相同。其中，Spark基于内存计算实现，可以以内存速度进行计算，优化工作负载迭代过程，加快数据分析处理速度；Hadoop MapReduce以批处理方式处理数据，每次启动任务后，需要等待较长时间才能获得结果。在机器学习和数据库查询等数据计算过程中，Spark的处理素的可以达到Hadoop MapReduce...

分类：其他好文时间：2014-12-31 16:26:30 阅读次数：136

大数据应用领域

聚类模型属于飞溅读式挖掘模型，以用户属性、行为、消费等特征数据为输入，将用户自动聚类为若干类，通常用来挖掘潜在目标客户群体，也可以用在大数据营销工具、CRM工具和防欺诈解决方案上。分类预测模型分析学习历史数据经验，预测分析未来数据发展方向。模型输出是离散数据或类别的称为分类模型，模型输出是数值类型数据的模型称为数值预测模型。分类模型根据训练数据集的类别号属性，学习现有分类数据的分类规...

分类：其他好文时间：2014-12-31 16:22:19 阅读次数：161

2015年计划

2015年其实才真正算的上是我的大数据元年，我需要在这一年中为自己的职业发展打好地基，所以需要做到但不限于：1、熟练使用mr,yarn,spark(spark sql,spark streaming,ml....),hive,mahout,hbase进行开发，并熟悉调优，及其中的执行原理。2、阅读f...

分类：其他好文时间：2014-12-31 07:35:26 阅读次数：219

Spark on Yarn ”爬坑“集锦（spark1.2）

一、概述Ha,已经有两个月没有更新blog了。由于近排公司需要引入Spark相关技术，我也是作为技术攻关人员之一，在这段时间使用Spark遇到了挺多问题，跌的坑也比较多，这篇blog主要总结一下这段时间使用Spark遇到的一些问题。二、遇到的"坑"和爬坑思路1、SparkSqlonyarn-client模..

分类：其他好文时间：2014-12-31 06:34:20 阅读次数：1157

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节②

三，深入RDD RDD本身是一个抽象类，具有很多具体的实现子类： RDD都会基于Partition进行计算： ? 默认的Partitioner如下所示：其中HashPartitioner的文档说明如下：另外一种常用的Partitioner是RangePartitio...

分类：其他好文时间：2014-12-29 23:10:11 阅读次数：540

共7564条上一页 1 ... 685 686 687 688 689 ... 757 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)