所谓的“百度权重”,指的是爱站、站长工具等网站推出的针对网站关键词排名预计给网站带来流量而划分的评估数据。“百度权重”并不是像谷歌的PageRank那样的对网站的综合评级的算法,而只是针对关键词排名方面给网站带来的欢迎度进行评级,因此非常容易作弊。百度官方就曾经发布过一个公告,告诉大家世界上并没有所...
分类:
其他好文 时间:
2014-10-28 13:28:17
阅读次数:
174
最近本人对各种分布式计算平台研究的比较火热,上周的时间简单了了解了Storm的用法,今天马不停蹄的开始了新的学习。同样是非常流行的分布式平台,Spark,跟Hadoop属于同类型的。Spark和Storm一样,作为最近才刚刚开源出来的一个项目,学习的资料相当少,大家都还在学习阶段,所以,我目前的学习的情况也只是限于比较粗糙的学习。
Spark是一个开源的通用并行分布式计...
分类:
其他好文 时间:
2014-10-27 23:10:00
阅读次数:
345
spark学习笔记
join跟union方法测试效果
join(otherDataset, [numTasks]):(K, V) join (K, W) => (K, (V, W))
测试过如果 没有join到的key,就没有数据,也就是两个RDD没有共同的K,则没有相应的数据
如:
res15: Array[(Int, Int)] =...
分类:
其他好文 时间:
2014-10-27 14:24:19
阅读次数:
117
上篇在总体上介绍了sparkSQL的运行架构及其基本实现方法(Tree和Rule的配合),也大致介绍了sparkSQL中涉及到的各个概念和组件。本篇将详细地介绍一下关键的一些概念和组件,由于hiveContext继承自sqlContext,关键的概念和组件类似,只不过后者针对hive的特性做了一些修正和重写,所以本篇就只介绍sqlContext的关键的概念和组件。
概念:
Logi...
分类:
数据库 时间:
2014-10-27 12:53:06
阅读次数:
616
我接触过的大数据有:
1.美国棱镜计划
2.前几天新闻报道的,苹果公司窃取用户隐私
3.百度的用户搜素习惯统计分析
4.淘宝的用户购物习惯分析,智能推荐宝贝
5.浏览器的智能标签页
...
最想了解的大数据架构与算法:
1.著名的Google 网页排名算法:PageRank
2.著名的聚类算法:K-Means
7.CART
3.C4.5
4.k-Mea...
分类:
其他好文 时间:
2014-10-27 11:00:21
阅读次数:
214
从org.apache.spark.scheduler.DAGScheduler#submitMissingTasks开始,分析Stage是如何生成TaskSet的。如果一个Stage的所有的parent stage都已经计算完成或者存在于cache中,那么他会调用submitMissingTask...
分类:
其他好文 时间:
2014-10-27 06:56:06
阅读次数:
249
编写了独立运行的Spark Application之后,需要将其提交到Spark Cluster中运行,一般会采用spark-submit来进行应用的提交,在使用spark-submit的过程中,有哪些事情需要注意的呢?
本文试就此做一个小小的总结。
分类:
Web程序 时间:
2014-10-26 21:11:13
阅读次数:
275
1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左側排名或佩奇排名。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模...
分类:
编程语言 时间:
2014-10-25 21:16:29
阅读次数:
301
环境:
hadoop-2.5.0-cdh5.2.0
mahout-0.9-cdh5.2.0
引言
虽然Mahout已经宣布不再继续基于Mapreduce开发,迁移到Spark,但是实际面临的情况是公司集群没有足够的内存支持Spark这只把内存当饭吃的猛兽,再加上项目进度的压力以及开发人员的技能现状,所以不得不继续使用Mahout一段时间。
今天记录...
分类:
编程语言 时间:
2014-10-24 16:36:02
阅读次数:
268
经过一段时间授课,积累下不少的spark知识,想逐步汇总成资料,分享给小伙伴们。对于想视频学习的小伙伴,可以访问炼数成金网站的《spark大数据平台》课程,每周的课程是原理加实际操作。最新的课程是第3期,至于费用,越认真学习,学习成本越低。
从Spark1.1.0开始,重新规划了一下学习路线,由于涉及的内容比较多,会不断的完善其中的内容,争取在Spark1.2.0形成一个完整的体...
分类:
其他好文 时间:
2014-10-24 13:03:54
阅读次数:
215