需要准备2个文件Apache-tomcat-5.5.25.zip(推荐使用tomcat6)hdfs-webdav.war 解压tomcat# unzip apache-tomcat-5.5.25.zip 复制war到webapps# cd apache-tomcat-5.5.25# cp /soft...
分类:
Web程序 时间:
2014-07-12 00:28:44
阅读次数:
520
具体参考: 官方用户手册和开发指南http://flume.apache.org/FlumeDeveloperGuide.html*) 定位和简单例子1). Flume-ng-sdk是用于编写往flume agent发送数据的client sdk2). 简单示例RpcClient client = ...
分类:
其他好文 时间:
2014-07-11 21:12:08
阅读次数:
256
1.文件的读取在客户端执行读取操作时,客户端和HDFS交互过程以及NameNode和各DataNode之间的数据流是怎样的?下面将围绕图1进行具体讲解。 图 1 客户端从HDFS中读取数据1)客户端通过调用FileSystem对象中的open()函数来读取它做需要的数据。FileS...
分类:
其他好文 时间:
2014-07-09 13:58:58
阅读次数:
824
1、从HDFS中读取数据
Configuration conf = getConf();
Path path = new Path(pathstr);
FileSystem fs = FileSystem.get(conf);
FSDataInputStream fsin= fs.open(path );
BufferedReader br =null;
Strin...
分类:
其他好文 时间:
2014-07-09 09:17:40
阅读次数:
290
1、构建Nutch
tar -zxvf apache-nutch-2.2.1-src.tar.gz
cd apache-nutch-2.2.1
ant runtime
2、 ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式:
Deploy:的数据必须运行在Hadoop的HDFS中
loca...
分类:
其他好文 时间:
2014-07-08 18:20:36
阅读次数:
268
快,指时延storm:网络直传,基于内存,流式处理,省去了批量处理收集数据的时间和作业调度时延,用于实时hadoop:hdfs传输,磁盘作为中间交换的介质,基于任务调度吞吐:单位时间内处理的数据量当数据量很大时,比的是吞吐,那hadoop会比storm快
分类:
其他好文 时间:
2014-07-08 09:11:30
阅读次数:
195
前言: Flume-ng是数据收集/聚合/传输的组件, Flume-ng抛弃了Flume OG原本繁重的zookeeper和Master, Collector, 其整体的架构更加的简洁和明了. 其基础组件就Agent进程, 内部又可以细分为Source, Channel, Sink三个组件, S.....
分类:
其他好文 时间:
2014-07-07 00:26:46
阅读次数:
355
SpillableMemoryChannel是1.5版本新增的一个channel。这个channel优先将evnet放在内存中,一旦内存达到设定的容量就使用file channel写入磁盘。然后读的时候会按照顺序读取:会通过一个DrainOrderQueue来保证不管是内存中的还是溢出(本文的“.....
分类:
其他好文 时间:
2014-07-06 16:41:08
阅读次数:
296
1、下载hive:wget http://mirrors.cnnic.cn/apache/hive/hive-0.12.0/hive-0.12.0.tar.gz2、解压hive安装文件 tar -zvxf hive-0.12.0.tar.gz3、配置hive环境变量,初始化hive在hdfs上的工作...
分类:
其他好文 时间:
2014-07-06 15:35:09
阅读次数:
146
HBase开发环境搭建过程中可能遇到的异常:No FileSystem for scheme: hdfs...
分类:
其他好文 时间:
2014-07-03 17:10:28
阅读次数:
295