http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf ucb关于spark的论文,对spark中核心组件RDD最原始、本质的理解,没有比这个更好的资料了。必读。AbstractRDDs provide arestricted for...
分类:
其他好文 时间:
2015-01-18 07:03:31
阅读次数:
394
BOSS datasetWebsite:Datasets are availablehere.Dataset:The BOSS project aims at developing an innovative and bandwidth efficient communication system ...
分类:
其他好文 时间:
2015-01-05 21:54:18
阅读次数:
8093
reference :http://my.oschina.net/u/175377/blog/84420目录[-]Scikit Learn: 在python中机器学习载入示例数据一个改变数据集大小的示例:数码数据集(digits datasets)学习和预测分类K最近邻(KNN)分类器训练集和测试集...
分类:
其他好文 时间:
2015-01-03 17:05:35
阅读次数:
694
Spark Programming GuideOverviewLinking with SparkInitializing SparkUsing the ShellResilient Distributed Datasets (RDDs)Parallelized CollectionsExterna...
分类:
其他好文 时间:
2014-12-17 18:13:49
阅读次数:
310
RDD详解RDD(Resilient Distributed Datasets弹性分布式数据集),是spark中最重要的概念,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中)。当然,RDD肯定不会这么简单,它的功能还包括容...
分类:
其他好文 时间:
2014-11-29 15:54:31
阅读次数:
252
RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。
RDD是只读的,不可变的数据集。RDD也是容错的,假如其中一个RDD坏掉,RDD中有记录之前的依赖关系,依赖关系中记录算...
分类:
其他好文 时间:
2014-11-23 21:44:22
阅读次数:
292
1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景:Ø 迭代式算法:迭代式机器学习、图算法,包...
分类:
其他好文 时间:
2014-11-22 16:08:17
阅读次数:
392
From kdnuggetsData repositoriesAWS (Amazon Web Services) Public Data Sets, provides a centralized repository of public data sets that can be seamlessl...
分类:
其他好文 时间:
2014-11-15 23:08:07
阅读次数:
357
人脸检测做训练当然可以用OpenCV训练好的xml,但是岂止于此。我们也要动手做!~
首先是样本的选取。样本的选取很重要,找了很久才发现几个靠谱的。
人脸样本:http://www.vision.caltech.edu/Image_Datasets/Caltech_10K_WebFaces/ 网上抓取的逾10,000个人脸样本
http://...
分类:
其他好文 时间:
2014-10-30 10:22:34
阅读次数:
1343
Geodatabase以层次结构的数据对象来组织地理数据。 这些数据对象存储在要素类(Feature Classes)、对象类(0bject classes)和数据集(Feature datasets)中。 Object Class可以理解为是一个在Geodatabase中储存非空间数据的表...
分类:
数据库 时间:
2014-10-28 02:00:48
阅读次数:
248