1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景:Ø 迭代式算法:迭代式机器学习、图算法,包...
分类:
其他好文 时间:
2014-11-22 16:08:17
阅读次数:
392
From kdnuggetsData repositoriesAWS (Amazon Web Services) Public Data Sets, provides a centralized repository of public data sets that can be seamlessl...
分类:
其他好文 时间:
2014-11-15 23:08:07
阅读次数:
357
人脸检测做训练当然可以用OpenCV训练好的xml,但是岂止于此。我们也要动手做!~
首先是样本的选取。样本的选取很重要,找了很久才发现几个靠谱的。
人脸样本:http://www.vision.caltech.edu/Image_Datasets/Caltech_10K_WebFaces/ 网上抓取的逾10,000个人脸样本
http://...
分类:
其他好文 时间:
2014-10-30 10:22:34
阅读次数:
1343
Geodatabase以层次结构的数据对象来组织地理数据。 这些数据对象存储在要素类(Feature Classes)、对象类(0bject classes)和数据集(Feature datasets)中。 Object Class可以理解为是一个在Geodatabase中储存非空间数据的表...
分类:
数据库 时间:
2014-10-28 02:00:48
阅读次数:
248
RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html
本文也是基于这篇论文和源码,分析RDD的实现。
第一个问题,RDD是什么?Resilient Distributed Datasets(RDD,) 弹性分布式数据集。RDD是只读的、分区记录的集合。RD...
分类:
其他好文 时间:
2014-10-07 18:59:34
阅读次数:
331
This paper provides an overview and some conclusions from the HOUSING datasets disposed by the classical algorithms Kmeans and Hierarchical clustering. The total process of the project is divided into five parts including data preprocessing, selecting the ...
分类:
其他好文 时间:
2014-10-03 13:14:24
阅读次数:
141
一些常用的SAS命令
1. 转换文本数据文件的数据步的一般形式为:
data 数据集名;infile 文件名;
input 变量输入设定;
run;
2. 指定逻辑文件名语句的一般形式为:filename 逻辑文件名 ‘文件位置’;
3. 查看SAS逻辑库的属性和内容的一般写法为:proc datasets lib=逻辑库名;run;
4. 查看SAS数据集的属性的一般写法为:p...
分类:
其他好文 时间:
2014-09-28 10:32:41
阅读次数:
313
本次重点在:sas数据集管理
主要包括:包括数据集纵向拼接、转置、排序、比较、复制、重命名、删除等
1.append语句
注:base数据集和data两个数据集必须结构一样,避免使用force的情况,重复append的会造成重复。
一个避免重复的商业化应用:
%macro dl;
%if %sysfunc(exist(null)) ne 0 %then %...
分类:
其他好文 时间:
2014-09-28 10:32:11
阅读次数:
309
注:本文章是翻译自:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 概要 我们提出了弹性分布式数据集(Resilient Distributed Datasets...
分类:
其他好文 时间:
2014-09-15 19:07:59
阅读次数:
146
Spark Programming Guide
OverviewLinking with SparkInitializing Spark
Using the Shell
Resilient Distributed Datasets (RDDs)
Parallelized CollectionsExternal DatasetsRDD Operations
BasicsPa...
分类:
其他好文 时间:
2014-09-15 12:57:39
阅读次数:
192