上一篇说了HDFSEventSink的实现,这里根据hdfssink的配置和调用分析来看下sink中整个hdfs数据写入的过程:线上hdfssink的几个重要设置hdfs.path=hdfs://xxxxx/%{logtypename}/%Y%m%d/%H:
hdfs.rollInterval=60
hdfs.rollSize=0//想让文件只根据实际来roll
hdfs.rollCount=0
hd..
分类:
其他好文 时间:
2015-03-08 01:32:45
阅读次数:
4543
#创建表人信息表person(String name,int age)hive> create table person(name STRING,age INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ESCAPED BY '\\' STORED...
分类:
其他好文 时间:
2015-03-06 22:02:49
阅读次数:
11717
让Java程序能够识别Hadoop的hdfs URL方案需要一些额外的工作,采用的方法是通过FsUrlStreamHandlerFactory实例调用java.net.URL对象的setURLStreamHandlerFactory方法。每个Java虚拟机只能调用一次这个方法,因此通常在静态方法中调...
分类:
Web程序 时间:
2015-03-06 16:24:37
阅读次数:
110
一、数据准备
1、每天生成随机一个文本,每小时向文本中追加2次数据,每次10万条
随机数据生成:
2,32 * * * * bash /mnt/jediael/irms/signalGenerator/signalGenerator.sh >> /home/jediael/sg.log 2>&1
类:SignalGenerator
2、每天将前一天生成的数据文本导入HDFS
3...
分类:
其他好文 时间:
2015-03-06 16:01:50
阅读次数:
115
HDFSEventSink用于把数据从channel中拿出来(主动pull的形式)然后放到hdfs中,HDFSEventSink在启动时会启动两个线程池callTimeoutPool和timedRollerPool,callTimeoutPool用于运行append/flush等操作hdfs的task(通过callWithTimeout方法调用,并实现timeout功能),用于运行..
分类:
Web程序 时间:
2015-03-06 06:24:34
阅读次数:
254
1.1读取hdfs中的文件。每一行解析成一个。每一个键值对调用一次map函数 解析成2个,分别是。调用2次map函数。 1、读文件解析 1.2 覆盖map(),接收1.1产生的,进行处理,转换为新的...
分类:
其他好文 时间:
2015-03-05 22:14:00
阅读次数:
213
来自 Gitbook上的“Spark访问HDFS”
http://chenzhongpu.gitbooks.io/bigdatanotes/content/SparkAccessHDFS/README.html
该书是关于大数据读书笔记的,目前在Gitbook上持续更新 。 Github地址:https://github.com/ChenZhongPu/BigDataGi...
分类:
其他好文 时间:
2015-03-05 20:59:02
阅读次数:
119
以上是该命令的选项
[root@com22 bin]# sh hdfs fsck /flume/events/2015/03/02/13 -racks
Connecting to namenode via http://com22.authentication:50070
FSCK started by root (auth:SIMPLE) from /192.168.11.177 fo...
分类:
其他好文 时间:
2015-03-05 17:10:00
阅读次数:
120
在hdfs中,默认的文件删除保留的时间是0,也就是没有保留删除的文件,删除即丢失
那么如果你想启用hdfs的回收站机制,在删除文件后,希望多久之后,文件才消失,因为这个过程中万一你想来恢复文件呢
fs.trash.interval
1440
将以上配置添加到core-site.xml中即可,1440表示删除的文件保存1440...
分类:
其他好文 时间:
2015-03-05 14:46:37
阅读次数:
268
如何有效管理应用的大量配置目前现在应用的大量配置信息全部保存在xml文档中,方便修改和读取,Hadoop同样采取这样的方式。那么让我们来看看Hadoop是如何管理自己的配置信息的。Hadoop中管理配置信息的类为:configuration类实现了iterable接口,该接口返回一个iterator...
分类:
其他好文 时间:
2015-03-05 00:09:27
阅读次数:
156