码迷,mamicode.com
首页 >  
搜索关键字:spark streaming jobscheduler    ( 7564个结果
ubuntu12.04上搭建darwin streaming server6.03
个人建议:使用DarwinStreamingSrvr5.5.5,因为DarwinStreamingSrvr6.0.3安装过程中有很多问题需要解决!而且安装只需执行./Install就可以!1:下载darwin源代码DarwinStreamingSrvr6.0.3-Source.tar,补丁patch...
分类:Windows程序   时间:2015-01-04 16:38:31    阅读次数:252
Linux编译安装Darwin Streaming Server 6.0.3
买回来VPS后就一直想在上面搭建一个流媒体服务,在网上搜索了很多资料,大部分都是介绍Linux中安装Darwin Streaming Server 5.5.5版本,因为这个版本提供了针对linux的安装脚本。但既然官网有了6.0.3版本,于是果断尝试安装最新的版本。1、什么是Darwin Strea...
分类:Windows程序   时间:2015-01-04 16:35:20    阅读次数:240
spark搭建环境涉及的linux命令(简单易用型(勿喷))
从一台服务器负责内容到另一台服务器: scp jdk-6u37-linux-x64.bin  spark@10.126.45.56:/home/spark/opt tar压缩和解压文件:  压缩 tar -cvf  java.tar.gz java/           解压:  tar -xvf java.tar.gz 配置java环境变量: 去各种地方下载 jdk程序包 :jdk-6u3...
分类:系统相关   时间:2015-01-04 15:20:05    阅读次数:250
关于yarn的spark配置属性
分类:其他好文   时间:2015-01-04 15:12:11    阅读次数:825
Spark 与 Hadoop 关于 TeraGen/TeraSort 的对比实验(包含源代码)
自从 Hadoop 问世以来,MapReduce 在很长时间内都是排序基准测试的纪录保持者,但这一垄断在最近被基于内存计算的 Spark 打破了。在今年Databricks与AWS一起完成的一个Daytona Gray类别的Sort Benchmark中,Spark 完胜 Hadoop MapReduce:“1/10计算资源,1/3耗时”。这是个很有意思的对比实验,因此笔者也在一个小规模集群上做了一个微缩版的类似试验。...
分类:其他好文   时间:2015-01-03 22:30:20    阅读次数:286
Spark与Hadoop MapReduce的对比分析
Spark与Hadoop MapReduce均为开源集群计算系统,但是两者适用的场景并不相同。其中,Spark基于内存计算实现,可以以内存速度进行计算,优化工作负载迭代过程,加快数据分析处理速度;Hadoop MapReduce以批处理方式处理数据,每次启动任务后,需要等待较长时间才能获得结果。在机器学习和数据库查询等数据计算过程中,Spark的处理素的可以达到Hadoop MapReduce...
分类:其他好文   时间:2014-12-31 16:26:30    阅读次数:136
大数据应用领域
聚类模型属于飞溅读式挖掘模型,以用户属性、行为、消费等特征数据为输入,将用户自动聚类为若干类,通常用来挖掘潜在目标客户群体,也可以用在大数据营销工具、CRM工具和防欺诈解决方案上。      分类预测模型分析学习历史数据经验,预测分析未来数据发展方向。模型输出是离散数据或类别的称为分类模型,模型输出是数值类型数据的模型称为数值预测模型。分类模型根据训练数据集的类别号属性,学习现有分类数据的分类规...
分类:其他好文   时间:2014-12-31 16:22:19    阅读次数:161
2015年计划
2015年其实才真正算的上是我的大数据元年,我需要在这一年中为自己的职业发展打好地基,所以需要做到但不限于:1、熟练使用mr,yarn,spark(spark sql,spark streaming,ml....),hive,mahout,hbase进行开发,并熟悉调优,及其中的执行原理。2、阅读f...
分类:其他好文   时间:2014-12-31 07:35:26    阅读次数:219
Spark on Yarn ”爬坑“集锦(spark1.2)
一、概述Ha,已经有两个月没有更新blog了。由于近排公司需要引入Spark相关技术,我也是作为技术攻关人员之一,在这段时间使用Spark遇到了挺多问题,跌的坑也比较多,这篇blog主要总结一下这段时间使用Spark遇到的一些问题。二、遇到的"坑"和爬坑思路1、SparkSqlonyarn-client模..
分类:其他好文   时间:2014-12-31 06:34:20    阅读次数:1157
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节②
三,深入RDD RDD本身是一个抽象类,具有很多具体的实现子类: RDD都会基于Partition进行计算: ? 默认的Partitioner如下所示: 其中HashPartitioner的文档说明如下: 另外一种常用的Partitioner是RangePartitio...
分类:其他好文   时间:2014-12-29 23:10:11    阅读次数:540
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!