概述:
Spark是一个基于内存计算的开源集群计算系统,目的是让数据分析更加快速。
Spark非常小巧玲珑,由加州伯克利大学AMP实验室的小团队开发。使用的语言
是Scala,项目的core部分的代码只有63个Scala文件。(AMP实验室名字有点意思:
Algorithm Machine People,算法、机器、人)
Spark是一种与Hado...
分类:
其他好文 时间:
2015-06-20 11:56:13
阅读次数:
131
LibLinear(SVM包)的MATLAB安装1LIBSVM介绍LIBSVM是众所周知的支持向量机分类工具包(一些支持向量机(SVM)的开源代码库的链接及其简介),运用方便简单,其中的核函数(常用核函数-Kernel Function)可以自己定义也可以默认。但是对一些大数据来说,有没有非线性映射...
分类:
其他好文 时间:
2015-06-19 20:15:06
阅读次数:
3276
由于Licene的限制,没有放到默认的build里面,所以在官方网站下载的二进制文件中并不包含Gangla模块,如果需要使用,需要自己编译。在使用Maven编译Spark的时候,我们可以加上-Pspark-ganglia-lgpl选项来将Ganglia相关的类打包进spark-assembl...
分类:
系统相关 时间:
2015-06-19 16:31:54
阅读次数:
202
在用控制台学习hive和spark的时候,总是打印出来的各种日志烦得不行(对我而言)。所以就想把着写我不关心的信息屏蔽掉,只保留错误信息。其实输出的日志信息还是很有用的,因为里面的日志信息可以清楚的...
分类:
其他好文 时间:
2015-06-19 12:01:57
阅读次数:
129
来自http://blog.csdn.net/iefreer/article/details/32715153
Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。
所以这是把过程传递给数据。这和Hadoop map/reduce非常相似,除了积极使用内存来避免I/O操作,以使得迭代算法...
分类:
其他好文 时间:
2015-06-19 10:27:38
阅读次数:
90
简单描述下Spark的一些知识,包括:Hadoop的局限性,Spark的特色、关键特性RDD。
分类:
其他好文 时间:
2015-06-19 10:11:29
阅读次数:
178
在cdh5.3中的spark,已经包含了sparksql,只需要做以下几步配置,就可以在使用该功能1)确保hive的cli和jdbc都可以正常工作2)把hive-site.xml 复制到 SPARK_HOME/conf目录下3)将hive的类库添加到spark classpath中:编辑SPARK_...
分类:
数据库 时间:
2015-06-19 01:25:51
阅读次数:
425
参考资料:http://ir.dlut.edu.cn/NewsShow.aspx?ID=291http://www.douban.com/note/298095260/http://machinelearning.wustl.edu/mlpapers/paper_files/BengioDVJ03....
分类:
其他好文 时间:
2015-06-18 19:07:51
阅读次数:
326
介绍 Spark Streaming架构图 the micro-batch architecture of Spark Streaming Execution of Spark Streaming within Spark’s components...
分类:
其他好文 时间:
2015-06-18 13:45:29
阅读次数:
236
原文:http://www.infoq.com/cn/news/2015/06/Java-Spark-Jodd-Ninja?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global任...
分类:
编程语言 时间:
2015-06-18 11:03:26
阅读次数:
183