import?org.apache.spark.mllib.tree.DecisionTree
import?org.apache.spark.mllib.util.MLUtils
val?data?=?MLUtils.loadLibSVMFile(sc,?"data/mllib/sample_libsvm_data.txt").cache()
val?numClasses?...
分类:
其他好文 时间:
2015-02-03 19:50:29
阅读次数:
429
好久没有弄博客了。。。hive0.14spark0.12[hadoop@irs bin]$ ./spark-sqlSpark assembly has been built with Hive, including Datanucleus jars on classpathException in ...
分类:
数据库 时间:
2015-02-03 17:03:56
阅读次数:
372
Large-scale Parallel Collaborative Filtering for the Netflix Prizehttp://www.hpl.hp.com/personal/Robert_Schreiber/papers/2008%20AAIM%20Netflix/netflix...
分类:
其他好文 时间:
2015-02-03 01:50:38
阅读次数:
1017
Spark架构
Spark架构使用了分布式计算中master-slave模型,master是集群中含有master进程的节点,slave是集群中含有worker进程的节点。...
分类:
其他好文 时间:
2015-02-02 23:21:37
阅读次数:
516
这次 我们以指定executor-memory参数的方式来启动spark-shell: 启动成功了 在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小,启动成功后参看web页面: 从hdfs上读取文件: 在命令...
2015年已经走过了一个月的光景,在一月份,分享了两套视频教程。我个人看过了其中一些,还是很不错的,就是讲课的老师语速慢了点,偶尔有点发困,不知看过的朋友会不会有同感,呵呵。
关于已经开始的XMPP即时通讯客户端实际上一直是想完成的一个项目,只是一直被工作所困扰,一直没得空。好在现在有点时间,就忙里偷闲了。
那么作为第一篇文章,自然是开发环境的搭建和开发的前期准备。或许代码量不多,或许文章内容...
分类:
移动开发 时间:
2015-02-02 21:35:16
阅读次数:
319
执行语句:
sudo spark-submit --master yarn--driver-memory 7G --executor-memory 5G --executor-cores 24 --num-executors 4--class spark.init.InitSpark /home/hxf/gogo.jar>/home/hxf/dddd.txt2>&1;
执行过程:...
分类:
其他好文 时间:
2015-02-02 10:49:28
阅读次数:
179
场景:使用Spark Streaming接收Kafka发送过来的数据与关系型数据库中的表进行相关的查询操作;Kafka发送过来的数据格式为:id、name、cityId,分隔符为tab1 zhangsan 12 lisi 13 wangwu ...
分类:
数据库 时间:
2015-02-02 10:48:27
阅读次数:
169
/**Spark SQL源代码分析系列文章*/ 前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的。 那么基于以上存储结构,我们查询cache在jvm内的数据又是怎样查询的,本文将揭示查询In-Memory Data的方式。一、引子本例使用.....
分类:
数据库 时间:
2015-02-01 21:39:05
阅读次数:
201
1. 定义协同过滤(Collaborative Filtering)有狭义和广义两种意义:广义协同过滤:对来源不同的数据,根据他们的共同点做过滤处理。Collaborative filtering(CF) is a technique used by somerecommender systems....
分类:
其他好文 时间:
2015-02-01 19:09:37
阅读次数:
326