总结之前工作中遇到的一个问题。
背景:
运维用scribe从apache服务器推送过来的日志有重复记录,所以这边的ETL处理要去重,还有个需求是要按业务类型多目录输出,方便挂分区,后面的使用。
这两个需求单独处理都没有问题,但要在一个mapreduce里完成,需要一点技巧。
1、map输入数据,经过一系列处理,输出时:
if(ttype.equals("other"))...
分类:
其他好文 时间:
2014-07-11 00:20:13
阅读次数:
226
第一天上班,做个总结。
总得来说,感觉很不错,一个结论~保持头脑清醒,好好加油。
今天主要办一些入职手续,拿到了代码,后面几天主要就是熟悉应用的功能、源码。想好好制定个计划,定日目标。
1.功能结构图(先从整体开始):
各大模块功能详解
2.类图:
从程序的源头开始绘制类图(以及类之间的关联)
3.熟悉当前代码的规范,梳理出一份规范文档。
4.技术点学习---在绘制类图的时候,就针...
分类:
其他好文 时间:
2014-07-10 23:18:40
阅读次数:
233
微软近期Open的职位:Job Title:Software Development EngineerIIDivision: Server & Tools Business - Commerce Platform GroupWork Location: Shanghai, ChinaAre you ...
分类:
其他好文 时间:
2014-07-10 15:08:15
阅读次数:
380
来自:http://blog.csdn.net/macyang/article/details/7880671所谓的推测执行,就是当所有task都开始运行之后,Job Tracker会统计所有任务的平均进度,如果某个task所在的task node机器配置比较低或者CPU load很高(原因很多),...
分类:
其他好文 时间:
2014-07-09 21:05:18
阅读次数:
248
由于在生产环境中大量使用hive,而hive的权限又较弱,如果可以记录所有hive操作,在增强安全性的同时,还能够统计hive表的使用频率;同时如果能够记录hql的开始和结束时间,则能够找出系统中花费时间较多的job,针对性的进行优化,因此跟踪hive的使用轨迹,增强安全的同时也能方便问题定位。如何记录用户操作了?Hive Hook为我们提供的方便的开放接口。
我们对hive的使用主要有两种使用...
分类:
其他好文 时间:
2014-07-09 10:21:05
阅读次数:
233
线上一个job出错,报错信息如下:DiagnosticMessagesforthisTask:
Error
:
java.io.IOException:java.io.EOFException:Unexpectedendofinputstream
atorg.apache.hadoop.hive.io.HiveIOExceptionHandlerChain.handleRecordReaderNextException(HiveIOExceptionHandlerChain.jav..
分类:
其他好文 时间:
2014-07-09 08:40:55
阅读次数:
347
Max Sum
Time Limit: 2000ms Memory limit: 32768K 有疑问?点这里^_^
题目描述
Given a sequence a[1],a[2],a[3]......a[n], your job is to calculate the max sum of a sub-sequence. For example, given (6,-...
分类:
其他好文 时间:
2014-07-08 21:30:17
阅读次数:
205
Parallel Python实现了一种简易的分布式计算方法。...
分类:
编程语言 时间:
2014-07-08 21:16:43
阅读次数:
227
#!/usr/bin/envpythonfromQueueimportQueuefromthreadingimportThreadimportrandomimporttimedefperson(i,q):whileTrue:#这个人一直处与可以接活干的状态q.get()print"Thread",i,"do_job"time.sleep(random.randint(1,5))#每个人干活的时间不一样,自然就会导致每个人分配的件..
分类:
编程语言 时间:
2014-07-08 09:48:06
阅读次数:
222
DAGScheduler的主要功能1、接收用户提交的job;2、将job根据类型划分为不同的stage,并在每一个stage内产生一系列的task,并封装成TaskSet;3、向TaskScheduler提交TaskSet;以如下示例描述Job提交过程:val sc = new SparkConte...
分类:
其他好文 时间:
2014-07-05 21:16:38
阅读次数:
198