我接触过的大数据有: 1.美国棱镜计划 2.前几天新闻报道的,苹果公司窃取用户隐私 3.百度的用户搜素习惯统计分析 4.淘宝的用户购物习惯分析,智能推荐宝贝 5.浏览器的智能标签页 ... 最想了解的大数据架构与算法: 1.著名的Google 网页排名算法:PageRank 2.著名的聚类算法:K- ...
分类:
其他好文 时间:
2017-07-05 19:54:03
阅读次数:
114
欢迎转载,请附上链接 http://blog.csdn.net/iemyxie/article/details/40736773 本文所涉算法均仅仅概述核心思想。详细实现细节參看本博客“数据挖掘算法学习”分类下其它文章,不定期更新中。 參考了很多资料加上个人理解,对十大算法进行例如以下分类: ?分类 ...
分类:
编程语言 时间:
2017-06-26 12:42:19
阅读次数:
354
目录: 1.基本思想 PageRank,即网页排名,是Google用来标识网页的等级或重要性的一种算法。 最早的搜索引擎采用的是 分类目录 的方法,即通过人工对网页进行分类并整理出高质量的网站。 随着网页数目的急剧增大,这种方法显然无法实施。于是,搜索引擎进入了 文本检索 的时代,即通过计算用户的查 ...
分类:
编程语言 时间:
2017-06-24 09:59:31
阅读次数:
231
闲来无事,整理一下算法。今天整理一下PageRank。 网上搜了搜感觉这篇文章还不错 http://www.cnblogs.com/fengfenggirl/p/pagerank-introduction.html 本文对这篇文章进行修改加工,加入了一些自己的思想,后面代码实现用了Spark而不是原 ...
分类:
其他好文 时间:
2017-06-14 21:16:04
阅读次数:
232
目录 一、同步图计算 1.图算法 2.同步图计算 3.系统实现 二、异步图计算 1.数据模型 2.计算过程 (本文为陈世敏老师课程笔记) 一、同步图计算 1.图算法 PageRank:随机游走模拟网页浏览得到网页重要度排名,从1/N初始化,直到公式收敛 (1-d)/n是任意跳转的概率,后面的邻居通过 ...
分类:
其他好文 时间:
2017-06-02 21:59:39
阅读次数:
228
【定义】Centrality:图中每个节点v的相对重要度c(v),重要度是什么可根据具体应用定义。 【估计方法】 Degree centrality Betweenness centrality Closeness centrality Eigenvector centrality PageRank ...
分类:
其他好文 时间:
2017-05-08 16:09:29
阅读次数:
191
通常搜索引擎处理的对象是互联网网页。首先面临的问题是:如何能够设计出高效的下载系统,以将如此海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。网络爬虫即起此作用,它是搜索引擎系统中很关键也很基础的构件。 爬虫,实际上就是通过相应的技术,抓取页面上特定的信息。 1,爬虫框架 首先从互联网页面中 ...
分类:
其他好文 时间:
2017-04-28 17:15:39
阅读次数:
145
下面我们看一下图计算的简单示例: 从图我们可以看出, 拿到Wikipedia的文档后,我们可以: 1、Wikipedia的文档 -- > table视图 -- >分析Hyperlinks超链接 -- > PageRank分析, 2、Wikipedia的文档 -- > table视图 -- >分析Te ...
分类:
其他好文 时间:
2017-04-19 09:26:46
阅读次数:
187
转自 http://blog.csdn.net/hguisu/article/details/8013489 HITS(HITS(Hyperlink - Induced Topic Search) ) 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士 ...
分类:
编程语言 时间:
2017-04-04 21:58:01
阅读次数:
268
转自 http://blog.csdn.net/hguisu/article/details/7996185 1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时 ...
分类:
编程语言 时间:
2017-03-30 22:51:35
阅读次数:
236