码迷,mamicode.com
首页 >  
搜索关键字:hadoop format异常    ( 13956个结果
解析Hadoop 2.3.0版本的新特性
2014年2月20日,Hadoop 2.3.0版本发布,这是apache 在2014年发布的第一个Hadoop版本,揭开了Hadoop 2014发展的序幕。该版本引入了很多大家期待已久的特性,包括HDFS 的异构层次化存储架构、DataNode Cache,YARN的单点故障解决方案,以及MapRe...
分类:其他好文   时间:2014-07-19 18:04:01    阅读次数:239
windows下eclipse+hadoop2
windows下eclipse+hadoop2.4开发手册1.解压下载的hadoop2.4,到任意盘符,例如D:\hadoop-2.4.0。2.设置环境变量①新建系统变量,如下所示。②将新建的HADOOP_HOME变量“%HADOOP_HOME%\bin;”加入到PATH变量里,如下图。3.将had...
分类:Windows程序   时间:2014-07-18 22:14:51    阅读次数:525
hadoop编程小技巧(4)---全局key排序类TotalOrderPartitioner
Hadoop代码测试版本:Hadoop2.4原理:在进行MR程序之前对输入数据进行随机提取样本,把样本排序,然后在MR的中间过程Partition的时候使用这个样本排序的值进行分组数据,这样就可以达到全局排序的目的了。难点:如果使用Hadoop提供的方法来实现全局排序,那么要求Mapper的输入、输出的key不变才可以,因为在源码InputSampler中提供的随机抽取的数据是输入数据最原始的ke...
分类:其他好文   时间:2014-07-18 18:04:00    阅读次数:314
data audit on hadoop fs
最近项目中遇到了存储在HDFS上的数据格式不对,是由于数据中带有\r\n的字符,程序处理的时候没有考虑到这些情况。历史数据大概有一年的时间,需要把错误的数据或者重复的数据给删除了,保留正确的数据,项目中使用Pig来进行数据处理,所以我写了一个UDF的JAVA类去过滤那些错误的数据,把错误的数据和正确...
分类:其他好文   时间:2014-07-18 17:33:40    阅读次数:246
细水长流话Hadoop(1)Hadoop序列化系统
声明:个人原创,转载请注明出处。文中引用了一些网上或书里的资料,如有不妥之处请告之。本文是我阅读Hadoop 0.20.2第二遍时写的笔记,在阅读过程中碰到很多问题,最终通过各种途径解决了大部分。Hadoop整个系统设计精良,源码值得学习分布式的同学们阅读,以后会将所有笔记一一贴出,希望能方便大家阅...
分类:其他好文   时间:2014-07-18 15:16:43    阅读次数:431
Hive架构层面优化之六分布式缓存
案例:Hadoop jar引用:hadoop jar -libjars aa.jar bb.jar ….jar包会被上传到hdfs,然后分发到每个datanode假设有20个jar文件,每天jar文件被上传上万次,分发达上万次(百G级),造成很严重的IO开销。如何使这些jar包在HDFS上进行缓存,...
分类:其他好文   时间:2014-07-18 00:23:59    阅读次数:265
Hadoop集群内lzo的安装与配置
LZO压缩,可分块并行处理,解压缩的效率也是可以的。为了配合部门hadoop平台测试,作者详细的介绍了如何在Hadoop平台下安装lzo所需要软件包:gcc、ant、lzo、lzo编码/解码器并配置lzo的文件:core-site.xml、mapred-site.xml。希望对大家有所帮助。以下是正...
分类:其他好文   时间:2014-07-17 22:01:19    阅读次数:876
centos安装hadoop(伪分布式)
在本机上装的CentOS 5.5 虚拟机, 软件准备:jdk 1.6 U26 hadoop:hadoop-0.20.203.tar.gzssh检查配置Linux代码 [root@localhost~]#ssh-keygen-trsaGeneratingpublic/privatersakeypair...
分类:其他好文   时间:2014-07-17 21:39:54    阅读次数:551
日志分析方法概述
最近几年日志分析这方面的人才需求越来越多,主要伴随数据挖掘的快速发展而迅速增长的。碰巧又在工作中又接触到一些日志记录方面的工作,就顺便了解一下日志系统的整个流程。下面这篇文章转自百度同学的一篇文章,针对大规模日志分析,联系到hadoop,hive的解决方案,阐述的比较全面。 另外就是阿里已经开发出类似的系统odps—通过sql语言进行数据的分析处理,详情见:http://102.alibab...
分类:其他好文   时间:2014-07-17 20:15:30    阅读次数:301
hadoop云盘客户端的设计与实现(一)
最近在hadoop云盘...
分类:其他好文   时间:2014-07-17 20:09:44    阅读次数:269
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!