个人建议:使用DarwinStreamingSrvr5.5.5,因为DarwinStreamingSrvr6.0.3安装过程中有很多问题需要解决!而且安装只需执行./Install就可以!1:下载darwin源代码DarwinStreamingSrvr6.0.3-Source.tar,补丁patch...
买回来VPS后就一直想在上面搭建一个流媒体服务,在网上搜索了很多资料,大部分都是介绍Linux中安装Darwin Streaming Server 5.5.5版本,因为这个版本提供了针对linux的安装脚本。但既然官网有了6.0.3版本,于是果断尝试安装最新的版本。1、什么是Darwin Strea...
从一台服务器负责内容到另一台服务器: scp jdk-6u37-linux-x64.bin spark@10.126.45.56:/home/spark/opt
tar压缩和解压文件: 压缩 tar -cvf java.tar.gz java/ 解压: tar -xvf java.tar.gz
配置java环境变量:
去各种地方下载 jdk程序包 :jdk-6u3...
分类:
系统相关 时间:
2015-01-04 15:20:05
阅读次数:
250
自从 Hadoop 问世以来,MapReduce 在很长时间内都是排序基准测试的纪录保持者,但这一垄断在最近被基于内存计算的 Spark 打破了。在今年Databricks与AWS一起完成的一个Daytona Gray类别的Sort Benchmark中,Spark 完胜 Hadoop MapReduce:“1/10计算资源,1/3耗时”。这是个很有意思的对比实验,因此笔者也在一个小规模集群上做了一个微缩版的类似试验。...
分类:
其他好文 时间:
2015-01-03 22:30:20
阅读次数:
286
Spark与Hadoop MapReduce均为开源集群计算系统,但是两者适用的场景并不相同。其中,Spark基于内存计算实现,可以以内存速度进行计算,优化工作负载迭代过程,加快数据分析处理速度;Hadoop MapReduce以批处理方式处理数据,每次启动任务后,需要等待较长时间才能获得结果。在机器学习和数据库查询等数据计算过程中,Spark的处理素的可以达到Hadoop
MapReduce...
分类:
其他好文 时间:
2014-12-31 16:26:30
阅读次数:
136
聚类模型属于飞溅读式挖掘模型,以用户属性、行为、消费等特征数据为输入,将用户自动聚类为若干类,通常用来挖掘潜在目标客户群体,也可以用在大数据营销工具、CRM工具和防欺诈解决方案上。
分类预测模型分析学习历史数据经验,预测分析未来数据发展方向。模型输出是离散数据或类别的称为分类模型,模型输出是数值类型数据的模型称为数值预测模型。分类模型根据训练数据集的类别号属性,学习现有分类数据的分类规...
分类:
其他好文 时间:
2014-12-31 16:22:19
阅读次数:
161
2015年其实才真正算的上是我的大数据元年,我需要在这一年中为自己的职业发展打好地基,所以需要做到但不限于:1、熟练使用mr,yarn,spark(spark sql,spark streaming,ml....),hive,mahout,hbase进行开发,并熟悉调优,及其中的执行原理。2、阅读f...
分类:
其他好文 时间:
2014-12-31 07:35:26
阅读次数:
219
一、概述Ha,已经有两个月没有更新blog了。由于近排公司需要引入Spark相关技术,我也是作为技术攻关人员之一,在这段时间使用Spark遇到了挺多问题,跌的坑也比较多,这篇blog主要总结一下这段时间使用Spark遇到的一些问题。二、遇到的"坑"和爬坑思路1、SparkSqlonyarn-client模..
分类:
其他好文 时间:
2014-12-31 06:34:20
阅读次数:
1157
三,深入RDD RDD本身是一个抽象类,具有很多具体的实现子类: RDD都会基于Partition进行计算: ? 默认的Partitioner如下所示: 其中HashPartitioner的文档说明如下: 另外一种常用的Partitioner是RangePartitio...
分类:
其他好文 时间:
2014-12-29 23:10:11
阅读次数:
540