码迷,mamicode.com
首页 >  
搜索关键字:实时计算    ( 318个结果
hive中使用正则表达式不当导致运行奇慢无比
业务保障部有一个需求,需要用hive实时计算上一小时的数据,比如现在是12点,我需要计算11点的数据,而且必须在1小时之后运行出来,但是他们用hive实现的时候发现就单个map任务运行都超过了1小时,根本没法满足需求,后来打电话让我帮忙优化一下,以下是优化过程:...
分类:其他好文   时间:2015-03-19 14:56:08    阅读次数:246
JStorm之Topology调度
topology在服务端提交过程中,会经过一系列的验证和初始化:TP结构校验、创建本地目录并拷贝序列化文件jar包、生成znode用于存放TP和task等信息,最后一步才进行任务分配,如下图: 提交主函数位于ServiceHandler.java中 private void makeAssignment(String topologyName, String topologyId, ...
分类:Web程序   时间:2015-03-16 19:21:04    阅读次数:176
flume_kafka_hdfs_hive数据的处理
使用flume收集数据,将数据传递给kafka和hdfs,kafka上的数据可以使用storm构建实时计算,而hdfs上的数据,经过MR处理之后可以导入hive中进行处理。 环境:hadoop1.2.1,hive 0.13.1,maven 3.2.5,flume 1.4,kafka 0.7.2,ec...
分类:Web程序   时间:2015-03-14 18:17:55    阅读次数:4961
实时计算框架之二:Storm之入门实例
预备、开火、瞄准…… 1 总结与提升 自1月份来,可谓是浮浮荡荡,一波三折呀。 先是参加了公司组织的创意马拉松大赛,虽说24小时内完成了作品,但是自己感觉上效果很差,自然成绩也是不高。通过这24小时持续的奋斗以及后来的各种产品描述等环节,发现了开发上的许多缺点。首先,对我们的产品进行了深入的认识和了解,也在产品之上,发现了更多可以发展走向成功的点子,这是我觉得最棒的一点;其次,短时间...
分类:其他好文   时间:2015-03-04 11:04:25    阅读次数:177
storm翻译(3)Distributed RPC(分布式远程调用)
原文地址:http://storm.apache.org/documentation/Distributed-RPC.html 分布式RPC的目的是在storm进行大量的实时计算时,能够并行的调用storm上的函数。Storm topology可以将函数参数作为输入Stream,并且将被调...
分类:其他好文   时间:2015-02-25 17:14:39    阅读次数:148
使用Redis bitmaps进行快速、简单、实时统计
http://bbs.itcast.cn/thread-17267-1-1.htmlgetspool.com的重要统计数据是实时计算的。Redis的bitmap让我们可以实时的进行类似的统计,并且极其节省空间。在模拟1亿2千8百万用户的模拟环境下,在一台MacBookPro上,典型的统计如“日用户数...
分类:其他好文   时间:2015-02-15 17:59:59    阅读次数:202
从Storm学习集群管理
从Storm看集群管理   简介 Storm是当前最流行的分布式实时计算平台,使用场景是根据Storm定义的接口规范编写一个实时处理流,然后提交到Storm平台处理,Storm平台解析该处理流,使其并行、分布式地在集群中运行,并附带相应的状态监控。本文主要描述Storm的集群管理这块的内容,处理流的相关接口逻辑规范不作涉及。        Storm集群监控管理的目标是管理和监控用户提交的...
分类:其他好文   时间:2015-01-31 18:02:37    阅读次数:666
常用税收风险管理指标
通过数据分析技术,实时计算风险预警指标数值,根据业务需要进行随机的组织和管理,保障税收风险管理更加合理和智能,常用税收风险管理指标如下: 税基比对异常 预提性质费用异常预警信息 其他应付款异常预警信息 其他应收款异常预警信息 工资总额异常预警信息 视同销售所得申报异常 营业外支出申报异常 捐赠支出申报异常 新增资本公积异常 期间费用其他项目申报异常 劳务费用异常预警信息 会...
分类:其他好文   时间:2015-01-22 15:27:10    阅读次数:178
KafkaSpout 浅析
最近在使用storm做一个实时计算的项目,Spout需要从 KAFKA 集群中读取数据,为了提高开发效率,直接使用了Storm提供的KAFKA插件。今天抽空看了一下KafkaSpout的源码,记录下心得体会。 KafkaSpout基于kafka.javaapi.consumer.Simpl...
分类:Web程序   时间:2015-01-22 12:47:14    阅读次数:496
JStorm之Topology提交服务端
topology提交前会先判断集群中是否存在同名作业,如果存在在提交失败,如果没有则会增加集群提交次数SubmittedCount,每次提交成功,该变量都会加1,然后会为该作业分配一个id,生成规则如下: public static String TopologyNameToId(String topologyName, int counter) { return topologyNam...
分类:Web程序   时间:2015-01-16 20:58:00    阅读次数:534
318条   上一页 1 ... 26 27 28 29 30 ... 32 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!