码迷,mamicode.com
首页 >  
搜索关键字:Datasets DataFrames    ( 570个结果
scikit-learn安装和测试
安装:python(x,y) 2.7.10,这个工具包已经包含了scikit-learn的0.16.1版本了。测试:1 from sklearn import datasets2 iris = datasets.load_iris()3 print iris.data报错!将C:\Python27\...
分类:其他好文   时间:2015-11-22 00:15:47    阅读次数:130
协同过滤算法 R/mapreduce/spark mllib多语言实现
用户电影评分数据集下载http://grouplens.org/datasets/movielens/1)Item-Based,非个性化的,每个人看到的都一样2)User-Based,个性化的,每个人看到的不一样对用户的行为分析得到用户的喜好后,可以根据用户的喜好计算相似用户和物品,然后可以基于相似用户或物品进行推荐。这..
分类:编程语言   时间:2015-11-05 19:08:06    阅读次数:669
Spark学习之RDD的理解
转自:http://www.infoq.com/cn/articles/spark-core-rdd/感谢张逸老师的无私分享 RDD,全称为Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时....
分类:其他好文   时间:2015-11-02 01:29:45    阅读次数:378
R包的安装与载入
R包的安装与载入R语言包的安装R自带了一系列默认包,包括 base、datasets 、utils、 grDevices、graphics 、stats以及methods,它们提供了种类繁多的默认函数和数据集。其他包可以通过下载来进行安装。方法一:通过install.packages命令instal...
分类:其他好文   时间:2015-10-21 20:54:44    阅读次数:247
朴素贝叶斯算法的Python实现
注意:1、代码中的注释请不要放在源程序中运行,会报错。2、代码中的数据集来源于http://archive.ics.uci.edu/ml/datasets/Car+Evaluation3、对于朴素贝叶斯的原理,可以查看我的前面的博客#Author:WenxiangCui #Date:2015/9/11 #Function:AclassifierwhichusingnaiveBayesiana..
分类:编程语言   时间:2015-09-14 00:44:27    阅读次数:234
关于RDD
RDD, Resilient Distributed Dataset,弹性分布式数据集, 是Spark的核心概念。对于RDD的原理性的知识,可以参阅Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory C...
分类:其他好文   时间:2015-09-06 12:47:10    阅读次数:169
使用Spark和Zeppelin探索movie-lens数据
MovieLens 100k数据包含有100,000条用户与电影的相关数据。 首先下载并解压数据:wget http://files.grouplens.org/datasets/movielens/ml-100k.zip unzip ml-100k.zip cd ml-100k #用户文件(ID,年龄,性别,职业,邮编) zhf@ubuntu:~/Downloads/ml-100k$ head...
分类:其他好文   时间:2015-08-30 21:25:57    阅读次数:250
Spark问题笔记2
1、学习Spark必须要深入理解RDD编程模型。为什么呢?      RDD是Spark抽象的基石,整个Spark的编程都是基于对RDD的操作完成的。RDD(弹性分布式数据集,Resilient Distributed Datasets),其特性是只读的、可分区、容错的的数据集合;所谓弹性,指内存不够时,可以与磁盘进行交换(Spark是基于内存的),上述是Spark快的一个原因。Spark快的另...
分类:其他好文   时间:2015-08-26 18:00:53    阅读次数:368
csv读入数据,用julia/matplotlib/pyplot 画矢量图导入word中
这是是用julia来实现绘图,julia有三个绘图库:Winston、Gadfly、PyPlot 这里用的是pyplot,其实他是基于matplotlib的 1、首先在juno里安装两个库 juno是julia的集成开放环境(IDE) 没有安装juno的请看这里: Pkg.add("DataFrames")#表格库,这个好像装juno的时候就装好了 Pkg.add("PyPlot")#绘...
分类:其他好文   时间:2015-08-20 13:03:25    阅读次数:388
RDD:基于内存的集群计算容错抽象
本文转载:http://shiyanjun.cn/archives/744.html摘要本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内...
分类:其他好文   时间:2015-08-09 13:52:01    阅读次数:144
570条   上一页 1 ... 49 50 51 52 53 ... 57 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!