码迷,mamicode.com
首页 >  
搜索关键字:datasets    ( 544个结果
Spark和RDD模型研究
1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景:Ø  迭代式算法:迭代式机器学习、图算法,包...
分类:其他好文   时间:2014-11-22 16:08:17    阅读次数:392
Datasets for Data Mining and Data Science
From kdnuggetsData repositoriesAWS (Amazon Web Services) Public Data Sets, provides a centralized repository of public data sets that can be seamlessl...
分类:其他好文   时间:2014-11-15 23:08:07    阅读次数:357
人脸检测流程及正负样本下载
人脸检测做训练当然可以用OpenCV训练好的xml,但是岂止于此。我们也要动手做!~ 首先是样本的选取。样本的选取很重要,找了很久才发现几个靠谱的。 人脸样本:http://www.vision.caltech.edu/Image_Datasets/Caltech_10K_WebFaces/   网上抓取的逾10,000个人脸样本                    http://...
分类:其他好文   时间:2014-10-30 10:22:34    阅读次数:1343
Arc engine - Geodatabase.
Geodatabase以层次结构的数据对象来组织地理数据。 这些数据对象存储在要素类(Feature Classes)、对象类(0bject classes)和数据集(Feature datasets)中。 Object Class可以理解为是一个在Geodatabase中储存非空间数据的表...
分类:数据库   时间:2014-10-28 02:00:48    阅读次数:248
Spark技术内幕:究竟什么是RDD
RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html 本文也是基于这篇论文和源码,分析RDD的实现。 第一个问题,RDD是什么?Resilient Distributed Datasets(RDD,) 弹性分布式数据集。RDD是只读的、分区记录的集合。RD...
分类:其他好文   时间:2014-10-07 18:59:34    阅读次数:331
Clustering of residential areas based on residential conditions
This paper provides an overview and some conclusions from the HOUSING datasets disposed by the classical algorithms Kmeans and Hierarchical clustering. The total process of the project is divided into five parts including data preprocessing, selecting the ...
分类:其他好文   时间:2014-10-03 13:14:24    阅读次数:141
一些常用的SAS命令
一些常用的SAS命令 1. 转换文本数据文件的数据步的一般形式为: data 数据集名;infile 文件名;  input 变量输入设定;  run; 2. 指定逻辑文件名语句的一般形式为:filename 逻辑文件名 ‘文件位置’; 3. 查看SAS逻辑库的属性和内容的一般写法为:proc datasets lib=逻辑库名;run; 4. 查看SAS数据集的属性的一般写法为:p...
分类:其他好文   时间:2014-09-28 10:32:41    阅读次数:313
《SAS编程与数据挖掘商业案例》学习笔记之十二
本次重点在:sas数据集管理    主要包括:包括数据集纵向拼接、转置、排序、比较、复制、重命名、删除等 1.append语句 注:base数据集和data两个数据集必须结构一样,避免使用force的情况,重复append的会造成重复。 一个避免重复的商业化应用: %macro dl; %if %sysfunc(exist(null)) ne 0 %then %...
分类:其他好文   时间:2014-09-28 10:32:11    阅读次数:309
弹性分布式数据集:一个支持容错的集群内存计算的抽象
注:本文章是翻译自:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 概要 我们提出了弹性分布式数据集(Resilient Distributed Datasets...
分类:其他好文   时间:2014-09-15 19:07:59    阅读次数:146
Spark1.1.0 Spark Programming Guide
Spark Programming Guide OverviewLinking with SparkInitializing Spark Using the Shell Resilient Distributed Datasets (RDDs) Parallelized CollectionsExternal DatasetsRDD Operations BasicsPa...
分类:其他好文   时间:2014-09-15 12:57:39    阅读次数:192
544条   上一页 1 ... 51 52 53 54 55 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!