mahout已经提供了item-based cf 算法,但是要想在mahout 算法上修改item-based cf相对来说比较繁琐,比如加入流行度因子降权(降低流行用户与其它用户的相似度)等因素。目前在spark官方没有提供基于item或者user的协同过滤,本文参考了Movie Recommendations and More With Spark文章,写了item-based的协同过滤算法...
分类:
其他好文 时间:
2015-05-14 14:24:29
阅读次数:
1683
官方是这么说的:Cluster resources can be under-utilized if the number of parallel tasks used in any stage of the computation is not high enough. For example, ...
分类:
其他好文 时间:
2015-05-14 11:36:56
阅读次数:
359
从官方的Programming Guides中看到的我理解streaming中的checkpoint有两种,一种指的是metadata的checkpoint,用于恢复你的streaming;一种是rdd的checkpoint的;下面的代码指的是第一种:// Function to create an...
分类:
其他好文 时间:
2015-05-14 09:55:54
阅读次数:
130
分布式框架Spark下实现逻辑回归,先附上源码,方法细节后续补充。
分类:
系统相关 时间:
2015-05-13 19:31:24
阅读次数:
555
线性回归的Spark/Python实现,具体细节后续补充。
分类:
系统相关 时间:
2015-05-13 18:48:31
阅读次数:
160
在这里看到的解决方法https://issues.apache.org/jira/browse/SPARK-1729请是个人理解,有问题请大家留言。其实本身flume是不支持像KAFKA一样的发布/订阅功能的,也就是说无法让spark去flume拉取数据,所以老外就想了个取巧的办法。在flume中其...
分类:
Web程序 时间:
2015-05-13 16:04:15
阅读次数:
266
有两种方式,一种是sparkstreaming中的driver起监听,flume来推数据;另一种是sparkstreaming按照时间策略轮训的向flume拉数据。最开始我以为只有第一种方法,但是尼玛问题在于driver起来的结点是没谱的,所以每次我重启streaming后发现尼玛每次都要修改flu...
分类:
Web程序 时间:
2015-05-13 12:23:56
阅读次数:
207
1.1 KMeans聚类算法
1.1.1 基础理论
KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。
K-Means聚类算法主要分为三个步骤:
(1)第一步是为待聚类的点寻找聚类中心;
(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点...
分类:
编程语言 时间:
2015-05-12 23:10:11
阅读次数:
402
本文参考Adobeflex4.6help,写作目的仅为了个人加强记忆与体会Flex4以上版本中,可视组件分为spark和halo两套,spark用组件类和皮肤类的分离大大提高了对自定义外观的支持,特别是对于某些子皮肤部件移动位置改变布局的自定义外观,再也不需要大费周章的重写组件的updateDispla..
分类:
其他好文 时间:
2015-05-12 19:15:07
阅读次数:
139