本节中所用到的内容是来自搜狗实验室,网址为:http://www.sogou.com/labs/dl/q.html
我们使用的是迷你版本的tar.gz格式的文件,其大小为87K,下载后如下所示:
上传到服务器后,解压并查看:
查看Sogou文件内容:
该文件的格式如下所示:
访问时间 \t 用户ID \t 查询词 \t 该URL在返...
一天一段scala代码(二)
为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。
package examples
import scala.util.control.Breaks._
object Example2 {
def main(args: Array[Stri...
分类:
其他好文 时间:
2015-01-28 21:27:38
阅读次数:
154
Introduction
DPark是豆瓣开发的基于Mesos的开源分布式计算框架,是spark的python版克隆,Davids的作品,Beandb作者。是豆瓣刚开源的集群计算框架,类似于MapReduce,但是比其更灵活,可以用Python非常方便地进行分布式计算,并且提供了更多的功能以便更好的进行迭代式计算。DPark的计算模型是基于两个中心思想的:对分布式数据集的并行计算以及一些有...
分类:
编程语言 时间:
2015-01-28 19:47:43
阅读次数:
281
操作HDFS:先要保证HDFS启动了: 启动spark集群: 以spark-shell运行在spark集群上: 查看下之前上传到HDFS上的”LICENSE.txt“文件: 用spark读取这个文件: 使用count统计该文件的行数: ?我们可以看到count 耗...
日志字段格式:
id,ip,url,ref,cookie,time_stamp
把日志文件放到HDFS。仅取了1000行。
hadoop fs -put 1000_log hdfs://localhost:9000/user/root/input
计算PV。
scala> val textFile = sc.textFile("hdfs://localhost:9000/user/ro...
分类:
其他好文 时间:
2015-01-28 14:41:15
阅读次数:
421
关于Cluster Manager和Deploy Mode的组合在SparkSubmit.scala的createLaunchEnv中有比较详细的逻辑。Cluster Manager基本上有Standalone,YARN和Mesos三种情况,说明Cluster Manager用来指明集群的资源管理器...
分类:
其他好文 时间:
2015-01-28 06:09:55
阅读次数:
1978
一天一段scala代码(-)
为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。
package examples
object Example1
{
def main(args: Array[String])
{
//val用于声明可变变量
var coun...
分类:
其他好文 时间:
2015-01-27 21:52:29
阅读次数:
210
效果1:
效果2:
效果3:
//[2].创建主题文字 : gameTitle
Sprite* gameTitle = Sprite::create("game_title.png");
//获取尺寸大小
Size clipSize = gameTitle->getContentSize();
//[3].创建底板的发光图片 : spark
Sprit...
分类:
其他好文 时间:
2015-01-27 18:29:11
阅读次数:
295
先看一下原理性的文章:http://jerryshao.me/architecture/2013/10/08/spark-storage-module-analysis/,http://jerryshao.me/architecture/2013/10/08/spark-storage-module...
分类:
其他好文 时间:
2015-01-27 17:49:18
阅读次数:
337
首先以spark的本地模式测试spark API,以local的方式运行spark-shell: 先从parallelize入手吧: map操作后结果: 下面看下 filter操作: filter执行结果: 我们用最正宗的scala函数式编程的风格: 执行结果: 从...