码迷,mamicode.com
首页 >  
搜索关键字:parallel job    ( 5868个结果
用一个MapReduce job实现去重,多目录输出功能
总结之前工作中遇到的一个问题。 背景: 运维用scribe从apache服务器推送过来的日志有重复记录,所以这边的ETL处理要去重,还有个需求是要按业务类型多目录输出,方便挂分区,后面的使用。 这两个需求单独处理都没有问题,但要在一个mapreduce里完成,需要一点技巧。 1、map输入数据,经过一系列处理,输出时: if(ttype.equals("other"))...
分类:其他好文   时间:2014-07-11 00:20:13    阅读次数:226
first day for new job
第一天上班,做个总结。 总得来说,感觉很不错,一个结论~保持头脑清醒,好好加油。 今天主要办一些入职手续,拿到了代码,后面几天主要就是熟悉应用的功能、源码。想好好制定个计划,定日目标。 1.功能结构图(先从整体开始): 各大模块功能详解 2.类图: 从程序的源头开始绘制类图(以及类之间的关联) 3.熟悉当前代码的规范,梳理出一份规范文档。 4.技术点学习---在绘制类图的时候,就针...
分类:其他好文   时间:2014-07-10 23:18:40    阅读次数:233
微软职位内部推荐-Software Development Engineer II
微软近期Open的职位:Job Title:Software Development EngineerIIDivision: Server & Tools Business - Commerce Platform GroupWork Location: Shanghai, ChinaAre you ...
分类:其他好文   时间:2014-07-10 15:08:15    阅读次数:380
Speculative Execution in Hadoop
来自:http://blog.csdn.net/macyang/article/details/7880671所谓的推测执行,就是当所有task都开始运行之后,Job Tracker会统计所有任务的平均进度,如果某个task所在的task node机器配置比较低或者CPU load很高(原因很多),...
分类:其他好文   时间:2014-07-09 21:05:18    阅读次数:248
Hive权限之审计
由于在生产环境中大量使用hive,而hive的权限又较弱,如果可以记录所有hive操作,在增强安全性的同时,还能够统计hive表的使用频率;同时如果能够记录hql的开始和结束时间,则能够找出系统中花费时间较多的job,针对性的进行优化,因此跟踪hive的使用轨迹,增强安全的同时也能方便问题定位。如何记录用户操作了?Hive Hook为我们提供的方便的开放接口。 我们对hive的使用主要有两种使用...
分类:其他好文   时间:2014-07-09 10:21:05    阅读次数:233
hadoop Unexpected end of input stream 错误
线上一个job出错,报错信息如下:DiagnosticMessagesforthisTask: Error : java.io.IOException:java.io.EOFException:Unexpectedendofinputstream atorg.apache.hadoop.hive.io.HiveIOExceptionHandlerChain.handleRecordReaderNextException(HiveIOExceptionHandlerChain.jav..
分类:其他好文   时间:2014-07-09 08:40:55    阅读次数:347
HDU--Max sum---DP练习
Max Sum Time Limit: 2000ms   Memory limit: 32768K  有疑问?点这里^_^ 题目描述 Given a sequence a[1],a[2],a[3]......a[n], your job is to calculate the max sum of a sub-sequence. For example, given (6,-...
分类:其他好文   时间:2014-07-08 21:30:17    阅读次数:205
Parallel Python——一个简易的分布式计算系统
Parallel Python实现了一种简易的分布式计算方法。...
分类:编程语言   时间:2014-07-08 21:16:43    阅读次数:227
我对python线程池的理解
#!/usr/bin/envpythonfromQueueimportQueuefromthreadingimportThreadimportrandomimporttimedefperson(i,q):whileTrue:#这个人一直处与可以接活干的状态q.get()print"Thread",i,"do_job"time.sleep(random.randint(1,5))#每个人干活的时间不一样,自然就会导致每个人分配的件..
分类:编程语言   时间:2014-07-08 09:48:06    阅读次数:222
Spark分析之DAGScheduler
DAGScheduler的主要功能1、接收用户提交的job;2、将job根据类型划分为不同的stage,并在每一个stage内产生一系列的task,并封装成TaskSet;3、向TaskScheduler提交TaskSet;以如下示例描述Job提交过程:val sc = new SparkConte...
分类:其他好文   时间:2014-07-05 21:16:38    阅读次数:198
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!