#!/bin/sh#############################splittodayandyesterdayforiin$(seq10)doecho"">>/u1/hadoop-stat/stat.logdoneecho"begin["`date"+%Y-%m-%d"-d"-1days"`"]">>/u1/hadoop-stat/stat.log#############################removefilefunctionremoveFilepathNotC..
分类:
其他好文 时间:
2015-11-11 22:20:13
阅读次数:
346
什么是Spark Spark是UC?Berkeley?AMP?lab所开源的类Hadoop?MapReduce的通用的并行计算框架,Spark基于map?reduce算法实现的分布式计算,拥有Hadoop?MapReduce所具有的优点;但不同于MapReduce的是Job中间输...
分类:
其他好文 时间:
2015-11-05 01:01:09
阅读次数:
279
版本:CDH5.0.0,HDFS:2.3.0,Mapreduce:2.3.0,Yarn:2.3.0。场景描述:求一组数据中按照不同类别的最大值,比如,如下的数据:data1:[plain]view plaincopyA,10A,11A,12A,13B,21B,31B,41B,51data2:[pla...
分类:
其他好文 时间:
2015-11-01 21:05:05
阅读次数:
226
Hadoop从存储上来说,是类似于冗余磁盘阵列(RAID)的存储方式,将数据分散存储并提供以提供吞吐量,它的存储系统就是HDFS(Hadoop?Distuibute?Fils?System);从计算上来说,它通过MapReduce模型,将大数据的计...
分类:
其他好文 时间:
2015-10-29 11:32:14
阅读次数:
214
[hadoop@master ?~]$? [hadoop@master ?~]$ hadoop jar /opt/hadoop-2.5.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.2.jar ?pi 100 100 Error creating temp dir in hadoop.tmp.dir /home/hado...
分类:
其他好文 时间:
2015-10-28 01:54:03
阅读次数:
260
下面的代码中AffairClient类中包含了三个内之类,分别对应于Hadoop Mapreduce程序运行所需的Mapper类,Reducer类,和主类。AffairClient类中其余方法用于配置和运行EMR程序。可以修改相关参数来对程序做适当调整。比如:修改map和reduce函数,添加com...
分类:
编程语言 时间:
2015-10-16 11:41:20
阅读次数:
392
构建Hadoop伪分布式环境 这篇文章介绍Hadoop伪分布式环境的搭建过程与原理,是个人的学习总结,以纪念在各个步骤中遇到的麻烦、踩过的坑! 这篇笔记包含这样几个内容:
配置伪分布式环境
运行一个简单的作业
可能遇到的问题及解决办法
配置伪分布式环境 本文中的内容基于Hadoop2,即MapReduce作业运行在Yarn平台之上。
打通SSH,实现无密码登陆
由于Hadoop控制脚本需...
分类:
其他好文 时间:
2015-10-13 19:18:26
阅读次数:
230
引言1.本文不描写叙述MapReduce入门知识,这类知识网上非常多。请自行查阅2.本文的实例代码来自官网http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapRed...
分类:
Web程序 时间:
2015-10-01 11:37:06
阅读次数:
163
一 概述:(1)Hadoop MapReduce采用Master/Slave结构。*Master:是整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。*Slave:负责任务的执行和任务状态的回报,即MapReduce中的TaskTra...
分类:
其他好文 时间:
2015-09-28 15:53:28
阅读次数:
168