码迷,mamicode.com
首页 >  
搜索关键字:hadoop 大数据 云计算    ( 28457个结果
hadoop编程小技巧(4)---全局key排序类TotalOrderPartitioner
Hadoop代码测试版本:Hadoop2.4原理:在进行MR程序之前对输入数据进行随机提取样本,把样本排序,然后在MR的中间过程Partition的时候使用这个样本排序的值进行分组数据,这样就可以达到全局排序的目的了。难点:如果使用Hadoop提供的方法来实现全局排序,那么要求Mapper的输入、输出的key不变才可以,因为在源码InputSampler中提供的随机抽取的数据是输入数据最原始的ke...
分类:其他好文   时间:2014-07-18 18:04:00    阅读次数:314
为什么文件系统没有标签分类方式?
不论是做数据挖掘也好,数据分析,数据可视化也罢,就是把混乱杂糅的数据理清给人看。我经常觉得,如果不能把自己身边的数据“整理清楚”,又怎敢去折腾什么大数据呢?由于一直以来的习惯,我特别热衷于对知识、文件分类整理。例如电脑桌面一定要用fences整理;一定要建立文件夹归纳chrome浏览器的书签;收藏的...
分类:其他好文   时间:2014-07-18 17:35:42    阅读次数:236
data audit on hadoop fs
最近项目中遇到了存储在HDFS上的数据格式不对,是由于数据中带有\r\n的字符,程序处理的时候没有考虑到这些情况。历史数据大概有一年的时间,需要把错误的数据或者重复的数据给删除了,保留正确的数据,项目中使用Pig来进行数据处理,所以我写了一个UDF的JAVA类去过滤那些错误的数据,把错误的数据和正确...
分类:其他好文   时间:2014-07-18 17:33:40    阅读次数:246
细水长流话Hadoop(1)Hadoop序列化系统
声明:个人原创,转载请注明出处。文中引用了一些网上或书里的资料,如有不妥之处请告之。本文是我阅读Hadoop 0.20.2第二遍时写的笔记,在阅读过程中碰到很多问题,最终通过各种途径解决了大部分。Hadoop整个系统设计精良,源码值得学习分布式的同学们阅读,以后会将所有笔记一一贴出,希望能方便大家阅...
分类:其他好文   时间:2014-07-18 15:16:43    阅读次数:431
Azure编程笔记(5):长时间的异步操作带来的问题
Azure Storage里很多操作需要花费很长的时间。为了提高效率,这些耗时的操作是以异步的方式响应的。也就是说调用这些操作对应的函数虽然结束,但背后的操作可能还要持续一段时间。如果没有合理的对待从函数返回到操作真正结束这段时间,我们的程序就有可能出现问题。本文以删除CloudTable为例讨论这类问题。...
分类:其他好文   时间:2014-07-18 15:08:58    阅读次数:265
Android开发经验之—intent传递大数据
在Activity或者组件之前传递信息时,一般采用intent绑定bundle的方式传值,但在使用过程中需要注意的是不要用bundle传递大容量数据:        在做项目的过程中,需要将听写界面的听写结果信息传递到听写记录界面供显示用,但是由于传递的数据量过大导致程序ANR,甚至直接报异常(传递的信息里面有bitmap转换成的byte数组、每一个词组的拼音、词语、语音信息),经过分析发现是由...
分类:移动开发   时间:2014-07-18 14:05:30    阅读次数:273
蔡先生论道大数据之十三:预测企业未来
每次技术变革企业包括个人都需要做出适应,现在我们处于新一轮实际革命的时代节点上,从小数据时代到大数据时代的前叶.那么企业面对大数据需要做出什么样的变革呢?又存在什么样的挑战呢?首先,决策方式的改变,传统运作管理在变成大数据管理,越来越多的传统决策在变成基于数据分析..
分类:其他好文   时间:2014-07-18 13:16:00    阅读次数:171
System Center 2012 R2介绍
一、SystemCenter2012R2概述SystemCenter2012R2为企业提供了针对私有云、托管云和公有云基础结构和应用程序服务的通用管理工具集。可按照您的需求,为生产基础架构、可预期应用程序,以及云计算提供通用管理体验,帮助您的组织实现IT即服务。您可以通过自助服务模式向业务单元..
分类:其他好文   时间:2014-07-18 13:15:31    阅读次数:210
博客保存
Jasey WangLinux operations web老赵点滴.Net 架构 并行云风的BLOGC Lua 游戏编程四火的唠叨java javascript 设计闲思录DBA 前端优化 架构AderethClojure javascriptdirlt大数据 算法 cppLanceyan大数据 ...
分类:其他好文   时间:2014-07-18 12:25:10    阅读次数:347
Hive ERROR: Out of memory due to hash maps used in map-side aggregation .
当hive在执行大数据量的统计查询语句时,经常会出现下面OOM错误,具体错误提示如下:Possible error: Out of memory due to hash maps used in map-side aggregation.Solution: Currently hive.map.ag...
分类:其他好文   时间:2014-07-18 11:37:23    阅读次数:305
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!