码迷,mamicode.com
首页 >  
搜索关键字:streaming job 运行流程    ( 6390个结果
Apache Spark源码走读之5 -- DStream处理的容错性分析
在流数据的处理过程中,为了保证处理结果的可信度(不能多算,也不能漏算),需要做到对所有的输入数据有且仅有一次处理。在Spark Streaming的处理机制中,不能多算,比较容易理解。那么它又是如何作到即使数据处理结点被重启,在重启之后这些数据也会被再次处理呢?
分类:其他好文   时间:2014-05-06 00:58:21    阅读次数:465
spark 启动job的流程分析
从WordCount开始分析 编写一个例子程序 编写一个从HDFS中读取并计算wordcount的例子程序: packageorg.apache.spark.examples importorg.apache.spark.SparkContext importorg.apache.spark.SparkContext._ objectWordCount{ defm...
分类:其他好文   时间:2014-05-05 13:10:34    阅读次数:463
Hadoop MRUnit使用(一)
之前在写MR job的时候,由于要在云梯,或者一淘的开发集群上运行;所以处理方法是,在本地打成jar包,然后scp到客户端网关机上,然后在提交job运行。这样的问题时,有时候如果遇到一些逻辑上的问题,job跑挂了。必须在本地修改程序,然后重新打包,scp,再运行,这样比较麻烦;询问了一圈,觉得采用M...
分类:其他好文   时间:2014-05-04 10:54:29    阅读次数:427
使用hadoop multipleOutputs对输出结果进行不一样的组织
MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如:part-(m|r)-00000之类。但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。...
分类:其他好文   时间:2014-05-04 10:22:15    阅读次数:341
Spark中的Scheduler
Spark中的Scheduler scheduler分成两个类型,一个是TaskScheduler与其实现,一个是DAGScheduler。 TaskScheduler:主要负责各stage中传入的task的执行与调度。 DAGScheduler:主要负责对JOB中的各种依赖进行解析,根据RDD的依赖生成stage并通知TaskScheduler执行。 实例生成 TaskSchedule...
分类:其他好文   时间:2014-05-04 09:08:02    阅读次数:379
RDD的依赖关系
RDD的依赖关系 Rdd之间的依赖关系通过rdd中的getDependencies来进行表示, 在提交job后,会通过在DAGShuduler.submitStage-->getMissingParentStages privatedefgetMissingParentStages(stage: Stage): List[Stage] = { valmissing =newHash...
分类:其他好文   时间:2014-05-03 15:56:22    阅读次数:282
Hadoop初学指南(6)--MapReduce的简单实例及分析
本文在上一节的基础上通过一个简单的MR示例对MapReduce的运行流程进行分析。假设有两行数据,分别是helloyou,hellome,我们要统计其中出现的单词以及每个单词出现的次数。所得的结果为hello2you1me1(1)大致运行流畅1.解析成2个<k,v>,分别是<0,helloyou><10,hel..
分类:其他好文   时间:2014-05-03 01:51:40    阅读次数:382
Quartz学习
quartz.threadPool.threadCount 设置为1的时候 可以保证每次只运行一个job 不会因为上个job还没执行完 到触发时间点新开一个jobquartz.jobStore.misfireThreshold...
分类:其他好文   时间:2014-05-01 02:08:10    阅读次数:270
RTSP交互命令简介及过程参数描述
Real Time Streaming Protocol或者RTSP(实时流媒体协议),是由Real network 和 Netscape共同提出的如何有效地在IP网络上传输流媒体数据的应用层协议。RTSP提供一 种可扩展的框架,使能够提供可控制的,按需传输实时数据,比如音频和视频文件。源数据可以包...
分类:其他好文   时间:2014-05-01 01:26:01    阅读次数:448
一些关于流媒体的基本概念
目录[hide]1ASF2FLV3H2644X2645ffm6AVI7rtsp8rtp9mms10mmshASFASF是(Advanced Streaming Format 高级串流格式)的缩写,是 Microsoft 为 Windows 98 所开发的串流多媒体文件格式。ASF是微软公司Windo...
分类:其他好文   时间:2014-05-01 00:45:02    阅读次数:400
6390条   上一页 1 ... 637 638 639
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!