Scala编程问题集(01)By高焕堂洞庭国际智能硬件检测基地Q-01:如何使用Scala的Singleton机制来表达Class-level的数据。Answer:在面向对象编程(OOP,Object-OrientedProgramming)概念里,属性(Attribute)和函数(Function)都分为两个不同级别(Level)。例如,厦门的科技谷(厦门)公..
分类:
其他好文 时间:
2014-12-11 19:21:41
阅读次数:
199
本文尝试从源码层面梳理Spark在任务调度与资源分配上的做法。...
分类:
其他好文 时间:
2014-12-11 15:51:24
阅读次数:
221
spark在很多时候由于配置的原因造成缺少jar包的情况,本文介绍了两种缺少jar包情况,并介绍了如何使用spark-submit的--jars和--driver-class-path参数将jar包动态调用。...
分类:
编程语言 时间:
2014-12-09 17:54:48
阅读次数:
318
Hadoop,HBase,Storm,Spark到底是什么?
Hadoop=HDFS+Hive+Pig+......
分类:
其他好文 时间:
2014-12-09 17:45:22
阅读次数:
183
Tachyon是以内存为中心的分布式文件系统,拥有高性能和容错能力,能够为集群框架(如Spark、MapReduce)提供可靠的内存级速度的文件共享服务。从软件栈的层次来看,Tachyon是位于现有大数据计算框架和大数据存储系统之间的独立的一层。它利用底层文件系统作为备份,对于上层应用来说,Tachyon就是一个分布式文件系统。本文讲述了Tachyon的重要概念、使用方法以及基本原理。...
分类:
其他好文 时间:
2014-12-09 09:26:53
阅读次数:
243
前两篇文章写了Shuffle Read的一些实现细节。但是要想彻底理清楚这里边的实现逻辑,还是需要更多篇幅的;本篇开始,将按照Job的执行顺序,来讲解Shuffle。即,结果数据(ShuffleMapTask的结果和ResultTask的结果)是如何产生的;结果是如何处理的;结果是如何读取的。...
分类:
其他好文 时间:
2014-12-07 21:48:53
阅读次数:
224
好久没更新博客了,之前学了一些R语言和机器学习的内容,做了一些笔记,之后也会放到博客上面来给大家共享。一个月前就打算更新Spark Sql的内容了,因为一些别的事情耽误了,今天就简单写点,Spark1.2马上就要出来了,不知道变动会不会很大,据说添加了很多的新功能呢,期待中...首先声明一下这个版本...
分类:
数据库 时间:
2014-12-07 01:20:23
阅读次数:
585
mahout入门指南之mahout单机版推荐算法
鄙人最近在研究mahout,网上找了一些入门资料来看,发现都整理的比较乱。折腾了一番,终于搞清楚了。为了让新手们较快入门,决定总结分享一下,写此入门指南。
mahout是什么?
mahout是一个机器学习库,里面实现了一些算法,比如推荐算法,聚类算法。
实现方式有单机内存版,也有分布式(hadoop和spark)。...
分类:
编程语言 时间:
2014-12-06 15:26:15
阅读次数:
368
最近看了比较多的关于大数据处理方面的知识,但是例如Hadoop,Spark,Storm等平台大都是对于数据的存储和管理操作,并不是对于数据进行分析和处理的。所以这里就衍生出了另外一种对于数据的处理,数据挖掘。学习数据挖掘也非常偶然,首先毕竟本人一直在做的是数据方面的工作,数据挖掘相当于是对数据处理后的下一步操作,学习一下数据挖掘的基本知识,了解了解常用的一些数据挖掘算法,对我来说也是一件不错的事。...
分类:
其他好文 时间:
2014-12-05 17:27:05
阅读次数:
151
讲到Spark,我们要先讲将大数据,因为Spark是一个处理大数据的平台。那什么是大数据呢?大数据也称为海量数据,通常都是指TG级、PB级的数据,但是随着时间的流逝和验证,一些人们对大数据也发生了观念上的转变,而...
分类:
其他好文 时间:
2014-12-05 15:41:40
阅读次数:
389