喜欢手写学习,记忆深刻(字丑勿喷!)。计算过程的代码如下:public class PageRank{ private static double m[][]={ { 0 , 0.5 , 1 , 0 }, {0.333333333 , 0 , 0 , 0.5}, {0....
分类:
其他好文 时间:
2015-03-21 16:47:10
阅读次数:
185
PageRank:搜索引擎在使用PageRank的时候,需要计算每个节点的PageRank的值:上图给出了这个值的计算公式,每个节点的PageRank值由2部分构成,一个是节点初始的PageRank值,另一个是它连接的所有邻居节点的PageRank值。前者意味着邻居节点多则PageRank值高,后者...
分类:
其他好文 时间:
2015-03-20 16:16:16
阅读次数:
146
Python 实现的PageRank算法,纯粹使用python原生模块,没有使用numpy、scipy。...
分类:
编程语言 时间:
2015-03-02 22:32:36
阅读次数:
1171
本栏目(数据挖掘)下海量数据挖掘专题是个人对Coursera公开课海量数据挖掘(2015)的学习心得与笔记。所有内容均来自Coursera公开课Mining Massive Datasets中Jure Leskovec, Anand Rajaraman以及Jeff Ullman老师的讲解。(https://class.coursera.org/mmds-002/lecture)
第1讲---...
分类:
其他好文 时间:
2015-02-16 06:50:14
阅读次数:
373
第一周:学习PageRank,知识点:每个节点的权值由其他节点的投票决定,所有节点的权值和为1当节点很多时候必须转换成矩阵运算来计算节点的最终值,由马尔可夫链可以证明,这个值可以迭代得到问题:可能出现无出度节点,导致总体失衡解决办法:每个节点的入读权值矩阵M' = 0.8*M + 0.2*1/n,以...
分类:
其他好文 时间:
2015-02-07 21:39:49
阅读次数:
220
PageRank算法原理介绍 PageRank算法是google的网页排序算法,在《The Top Ten Algorithms in Data Mining》一书中第6章有介绍。大致原理是用户搜索出的多个网页需要按照一定的重要程度(即后面讲的权重)排序,每个网页的权重由所有链接到它的其他网页的权....
分类:
编程语言 时间:
2015-02-04 00:19:35
阅读次数:
352
搜索引擎的结果取决于两组信息:网页的质量信息,这个查询与每个网页的相关性信息。这里,我们介绍前一个。1.PageRank算法原理 算法的原理很简单,在互联网上,如果一个网页被很多其他网页所链接,说明它收到普遍的承认和信赖,那么它的排名就高。比如我们要找李开复博士,有100个人举手说自己是李开复...
分类:
Web程序 时间:
2015-02-03 21:03:01
阅读次数:
234
参考资料:http://blog.csdn.net/hguisu/article/details/7996185
更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm
链接分析
在链接分析中有2个经典的算法,1个是PageRank算法,还有1个是HITS算法,说白了,都是做链接分析的。具体是怎么做呢,继续往下看。
PageRank...
分类:
编程语言 时间:
2015-01-30 22:47:44
阅读次数:
580
对于特征值与特征向量的理解一直有些困惑,最近看PageRank算法碰巧有遇到了特征值与特征向量,所以想探究一下特征值与特征向量的几何意义。 矩阵乘法对应了一个变换,是把任意一个向量变成另一个方向或长度都大多不同的新向量。在这个变换的过程中,原向量主要发生旋转、伸缩的变化。如果矩阵对某一个向量或...
分类:
其他好文 时间:
2015-01-24 17:06:45
阅读次数:
165
应用的场景
1)DAG中Lineage过长,如果要重新计算的,则开销会很大(如在PageRank中)。
2)在Shuffle Dependency上采用Lineage的话,由于子RDD分区中的一个分区可能依赖于父RDD的中所有分区,所以需要对父RDD中的每个区进行计算,因为在子RDD中有可能其它分区也依赖于父RDD中的多个分区,这样就会造成很大的冗余计算开销。
传统方式
在RDD计算中,通...
分类:
其他好文 时间:
2015-01-13 23:26:27
阅读次数:
484