RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html
本文也是基于这篇论文和源码,分析RDD的实现。
第一个问题,RDD是什么?Resilient Distributed Datasets(RDD,) 弹性分布式数据集。RDD是只读的、分区记录的集合。RD...
分类:
其他好文 时间:
2014-10-07 18:59:34
阅读次数:
331
This paper provides an overview and some conclusions from the HOUSING datasets disposed by the classical algorithms Kmeans and Hierarchical clustering. The total process of the project is divided into five parts including data preprocessing, selecting the ...
分类:
其他好文 时间:
2014-10-03 13:14:24
阅读次数:
141
一些常用的SAS命令
1. 转换文本数据文件的数据步的一般形式为:
data 数据集名;infile 文件名;
input 变量输入设定;
run;
2. 指定逻辑文件名语句的一般形式为:filename 逻辑文件名 ‘文件位置’;
3. 查看SAS逻辑库的属性和内容的一般写法为:proc datasets lib=逻辑库名;run;
4. 查看SAS数据集的属性的一般写法为:p...
分类:
其他好文 时间:
2014-09-28 10:32:41
阅读次数:
313
本次重点在:sas数据集管理
主要包括:包括数据集纵向拼接、转置、排序、比较、复制、重命名、删除等
1.append语句
注:base数据集和data两个数据集必须结构一样,避免使用force的情况,重复append的会造成重复。
一个避免重复的商业化应用:
%macro dl;
%if %sysfunc(exist(null)) ne 0 %then %...
分类:
其他好文 时间:
2014-09-28 10:32:11
阅读次数:
309
注:本文章是翻译自:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 概要 我们提出了弹性分布式数据集(Resilient Distributed Datasets...
分类:
其他好文 时间:
2014-09-15 19:07:59
阅读次数:
146
Spark Programming Guide
OverviewLinking with SparkInitializing Spark
Using the Shell
Resilient Distributed Datasets (RDDs)
Parallelized CollectionsExternal DatasetsRDD Operations
BasicsPa...
分类:
其他好文 时间:
2014-09-15 12:57:39
阅读次数:
192
下载测试数据:http://grouplens.org/datasets/movielens/ ml-100k.zippublic class TMahout02 { public static void main(String[] args) throws IOException, Tast...
分类:
其他好文 时间:
2014-09-02 13:57:14
阅读次数:
194
这是一款基于Canvas的HTML5图表应用,在图表数据初始化的时候伴随动画效果。在线演示:点击演示源代码下载:点击下载核心jQuery代码:var myData = { labels : ["Mo","Di","Mi","Do","Fr","Sa","So"], datasets : [ { .....
分类:
Web程序 时间:
2014-08-28 13:17:19
阅读次数:
191
这是一款基于Canvas的HTML5图表应用,在图表数据初始化的时候伴随动画效果。
在线演示:
点击演示
源码下载:
点击下载
核心jQuery代码:
var myData = {
labels : ["Mo","Di","Mi","Do","Fr","Sa","So"],
datasets...
分类:
Web程序 时间:
2014-08-26 11:44:15
阅读次数:
221
1关于 sklearn.datasets
from sklearn.datasets import load_iris
import numpy as np
data = load_iris()
data 的属性如下:
数据存储在.data项中
每个观察对象的种类存储在数据集的.target属性中
数据的特征的种类存储在数据集的.feature_na...
分类:
编程语言 时间:
2014-08-21 17:17:14
阅读次数:
223