从WordCount开始分析
编写一个例子程序
编写一个从HDFS中读取并计算wordcount的例子程序:
packageorg.apache.spark.examples
importorg.apache.spark.SparkContext
importorg.apache.spark.SparkContext._
objectWordCount{
defm...
分类:
其他好文 时间:
2014-05-05 13:10:34
阅读次数:
463
之前在写MR
job的时候,由于要在云梯,或者一淘的开发集群上运行;所以处理方法是,在本地打成jar包,然后scp到客户端网关机上,然后在提交job运行。这样的问题时,有时候如果遇到一些逻辑上的问题,job跑挂了。必须在本地修改程序,然后重新打包,scp,再运行,这样比较麻烦;询问了一圈,觉得采用M...
分类:
其他好文 时间:
2014-05-04 10:54:29
阅读次数:
427
MapReduce
job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如:part-(m|r)-00000之类。但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。...
分类:
其他好文 时间:
2014-05-04 10:22:15
阅读次数:
341
RDD的依赖关系
Rdd之间的依赖关系通过rdd中的getDependencies来进行表示,
在提交job后,会通过在DAGShuduler.submitStage-->getMissingParentStages
privatedefgetMissingParentStages(stage:
Stage): List[Stage] = {
valmissing
=newHash...
分类:
其他好文 时间:
2014-05-03 15:56:22
阅读次数:
282
http://udt.sourceforge.net/DT is a reliable UDP
based application level data transport protocol for distributed data intensive
applications over wide ...
分类:
其他好文 时间:
2014-05-01 13:21:54
阅读次数:
488
quartz.threadPool.threadCount 设置为1的时候
可以保证每次只运行一个job 不会因为上个job还没执行完 到触发时间点新开一个jobquartz.jobStore.misfireThreshold...
分类:
其他好文 时间:
2014-05-01 02:08:10
阅读次数:
270
1.Hadoop简介Hadoop[h?du:p]实现了一个分布式文件系统(Hadoop
Distributed File
System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high
throughput)来访问应用程序的数...
分类:
其他好文 时间:
2014-04-30 03:17:00
阅读次数:
604
Abstract Introduction::
Bigtable设计主旨:可扩地扩展到pByte级别和数千台机器的系统, 通用、可伸缩、高性能、高可用性。
不实现完整的关系数据模型,而是支持一个可以动态控制,允许用户自解释数据属性; 用户甚至可以指定数据(使用时)是存在内存中还是磁盘中; 支持row...
分类:
其他好文 时间:
2014-04-29 15:40:01
阅读次数:
613