安装:python(x,y) 2.7.10,这个工具包已经包含了scikit-learn的0.16.1版本了。测试:1 from sklearn import datasets2 iris = datasets.load_iris()3 print iris.data报错!将C:\Python27\...
分类:
其他好文 时间:
2015-11-22 00:15:47
阅读次数:
130
用户电影评分数据集下载http://grouplens.org/datasets/movielens/1)Item-Based,非个性化的,每个人看到的都一样2)User-Based,个性化的,每个人看到的不一样对用户的行为分析得到用户的喜好后,可以根据用户的喜好计算相似用户和物品,然后可以基于相似用户或物品进行推荐。这..
分类:
编程语言 时间:
2015-11-05 19:08:06
阅读次数:
669
转自:http://www.infoq.com/cn/articles/spark-core-rdd/感谢张逸老师的无私分享 RDD,全称为Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时....
分类:
其他好文 时间:
2015-11-02 01:29:45
阅读次数:
378
R包的安装与载入R语言包的安装R自带了一系列默认包,包括 base、datasets 、utils、 grDevices、graphics 、stats以及methods,它们提供了种类繁多的默认函数和数据集。其他包可以通过下载来进行安装。方法一:通过install.packages命令instal...
分类:
其他好文 时间:
2015-10-21 20:54:44
阅读次数:
247
注意:1、代码中的注释请不要放在源程序中运行,会报错。2、代码中的数据集来源于http://archive.ics.uci.edu/ml/datasets/Car+Evaluation3、对于朴素贝叶斯的原理,可以查看我的前面的博客#Author:WenxiangCui
#Date:2015/9/11
#Function:AclassifierwhichusingnaiveBayesiana..
分类:
编程语言 时间:
2015-09-14 00:44:27
阅读次数:
234
RDD, Resilient Distributed Dataset,弹性分布式数据集, 是Spark的核心概念。对于RDD的原理性的知识,可以参阅Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory C...
分类:
其他好文 时间:
2015-09-06 12:47:10
阅读次数:
169
MovieLens 100k数据包含有100,000条用户与电影的相关数据。
首先下载并解压数据:wget http://files.grouplens.org/datasets/movielens/ml-100k.zip
unzip ml-100k.zip
cd ml-100k
#用户文件(ID,年龄,性别,职业,邮编)
zhf@ubuntu:~/Downloads/ml-100k$ head...
分类:
其他好文 时间:
2015-08-30 21:25:57
阅读次数:
250
1、学习Spark必须要深入理解RDD编程模型。为什么呢?
RDD是Spark抽象的基石,整个Spark的编程都是基于对RDD的操作完成的。RDD(弹性分布式数据集,Resilient Distributed Datasets),其特性是只读的、可分区、容错的的数据集合;所谓弹性,指内存不够时,可以与磁盘进行交换(Spark是基于内存的),上述是Spark快的一个原因。Spark快的另...
分类:
其他好文 时间:
2015-08-26 18:00:53
阅读次数:
368
这是是用julia来实现绘图,julia有三个绘图库:Winston、Gadfly、PyPlot
这里用的是pyplot,其实他是基于matplotlib的
1、首先在juno里安装两个库
juno是julia的集成开放环境(IDE)
没有安装juno的请看这里:
Pkg.add("DataFrames")#表格库,这个好像装juno的时候就装好了
Pkg.add("PyPlot")#绘...
分类:
其他好文 时间:
2015-08-20 13:03:25
阅读次数:
388
本文转载:http://shiyanjun.cn/archives/744.html摘要本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内...
分类:
其他好文 时间:
2015-08-09 13:52:01
阅读次数:
144