本栏目(数据挖掘)下海量数据挖掘专题是个人对Coursera公开课海量数据挖掘(2015)的学习心得与笔记。所有内容均来自Coursera公开课Mining Massive Datasets中Jure Leskovec, Anand Rajaraman以及Jeff Ullman老师的讲解。(https://class.coursera.org/mmds-002/lecture)
第1讲---...
分类:
其他好文 时间:
2015-02-16 06:50:14
阅读次数:
373
DescriptionOften when manipulating datasets with similar structures, you need to copy the records from one dataset to another.E.g. you may have fetche...
分类:
其他好文 时间:
2015-02-03 12:58:51
阅读次数:
249
机器学习的来源和用例:
Machine Learning
- Grew out of work in AI
- New capability for computers
Examples:
- Database mining
Large datasets from growth of automation/web.
E.g., Web click data, medical re...
分类:
系统相关 时间:
2015-01-24 21:27:36
阅读次数:
331
调用python的sklearn实现Logistic Reression算法
先说如何实现,其中的导入数据库和类、方法的关系,之前不是很清楚,现在知道了。。。
from numpy import *
from sklearn.datasets import load_iris # import datasets
# load the dataset...
分类:
编程语言 时间:
2015-01-21 20:14:19
阅读次数:
1118
http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf ucb关于spark的论文,对spark中核心组件RDD最原始、本质的理解,没有比这个更好的资料了。必读。AbstractRDDs provide arestricted for...
分类:
其他好文 时间:
2015-01-18 07:03:31
阅读次数:
394
BOSS datasetWebsite:Datasets are availablehere.Dataset:The BOSS project aims at developing an innovative and bandwidth efficient communication system ...
分类:
其他好文 时间:
2015-01-05 21:54:18
阅读次数:
8093
reference :http://my.oschina.net/u/175377/blog/84420目录[-]Scikit Learn: 在python中机器学习载入示例数据一个改变数据集大小的示例:数码数据集(digits datasets)学习和预测分类K最近邻(KNN)分类器训练集和测试集...
分类:
其他好文 时间:
2015-01-03 17:05:35
阅读次数:
694
Spark Programming GuideOverviewLinking with SparkInitializing SparkUsing the ShellResilient Distributed Datasets (RDDs)Parallelized CollectionsExterna...
分类:
其他好文 时间:
2014-12-17 18:13:49
阅读次数:
310
RDD详解RDD(Resilient Distributed Datasets弹性分布式数据集),是spark中最重要的概念,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中)。当然,RDD肯定不会这么简单,它的功能还包括容...
分类:
其他好文 时间:
2014-11-29 15:54:31
阅读次数:
252
RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。
RDD是只读的,不可变的数据集。RDD也是容错的,假如其中一个RDD坏掉,RDD中有记录之前的依赖关系,依赖关系中记录算...
分类:
其他好文 时间:
2014-11-23 21:44:22
阅读次数:
292