码迷,mamicode.com
首页 >  
搜索关键字:distributed job    ( 5958个结果
spark 启动job的流程分析
从WordCount开始分析 编写一个例子程序 编写一个从HDFS中读取并计算wordcount的例子程序: packageorg.apache.spark.examples importorg.apache.spark.SparkContext importorg.apache.spark.SparkContext._ objectWordCount{ defm...
分类:其他好文   时间:2014-05-05 13:10:34    阅读次数:463
Hadoop MRUnit使用(一)
之前在写MR job的时候,由于要在云梯,或者一淘的开发集群上运行;所以处理方法是,在本地打成jar包,然后scp到客户端网关机上,然后在提交job运行。这样的问题时,有时候如果遇到一些逻辑上的问题,job跑挂了。必须在本地修改程序,然后重新打包,scp,再运行,这样比较麻烦;询问了一圈,觉得采用M...
分类:其他好文   时间:2014-05-04 10:54:29    阅读次数:427
使用hadoop multipleOutputs对输出结果进行不一样的组织
MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如:part-(m|r)-00000之类。但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。...
分类:其他好文   时间:2014-05-04 10:22:15    阅读次数:341
RDD的依赖关系
RDD的依赖关系 Rdd之间的依赖关系通过rdd中的getDependencies来进行表示, 在提交job后,会通过在DAGShuduler.submitStage-->getMissingParentStages privatedefgetMissingParentStages(stage: Stage): List[Stage] = { valmissing =newHash...
分类:其他好文   时间:2014-05-03 15:56:22    阅读次数:282
UDT: Breaking the Data Transfer Bottleneck
http://udt.sourceforge.net/DT is a reliable UDP based application level data transport protocol for distributed data intensive applications over wide ...
分类:其他好文   时间:2014-05-01 13:21:54    阅读次数:488
Quartz学习
quartz.threadPool.threadCount 设置为1的时候 可以保证每次只运行一个job 不会因为上个job还没执行完 到触发时间点新开一个jobquartz.jobStore.misfireThreshold...
分类:其他好文   时间:2014-05-01 02:08:10    阅读次数:270
Hadoop 介绍
1.Hadoop简介Hadoop[h?du:p]实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数...
分类:其他好文   时间:2014-04-30 03:17:00    阅读次数:604
Note: Bigtable, A Distributed Storage System for Structured Data
Abstract Introduction:: Bigtable设计主旨:可扩地扩展到pByte级别和数千台机器的系统, 通用、可伸缩、高性能、高可用性。 不实现完整的关系数据模型,而是支持一个可以动态控制,允许用户自解释数据属性; 用户甚至可以指定数据(使用时)是存在内存中还是磁盘中; 支持row...
分类:其他好文   时间:2014-04-29 15:40:01    阅读次数:613
5958条   上一页 1 ... 594 595 596
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!