博客将介绍HDFS HA架构,并进行源码引导...
分类:
其他好文 时间:
2014-06-15 19:48:51
阅读次数:
519
一、项目要求
本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、nginx、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。
二、需求分析: KPI指标设计
PV(PageView): 页面访问量统计
IP: 页面独立IP的访问量统计
...
分类:
其他好文 时间:
2014-06-15 10:25:49
阅读次数:
395
1、pig安装 1)解压,重命名、设置环境变量,同hadoop 2)编辑文件$PIG_HOME/conf/pig.properties,增加两行如下内容 fs.default.name=hdfs://hadoop:9000 mapred.job.tracker=hadoop:9001...
分类:
其他好文 时间:
2014-06-14 11:40:40
阅读次数:
205
1:引入的jar包1.X版本有hadoop-core包;而2.x没有如果你需要hdfs就引入\share\hadoop\common\lib
+hadoop-common-2.0.0-cdh4.6.0.jar +hadoop-hdfs-2.0.0-cdh4.6.0.jar
+\share\hadoo...
分类:
其他好文 时间:
2014-06-12 13:59:33
阅读次数:
255
flume-ng
是一个分布式,高可用的日志收集系统。主要用来将分布在不同服务器上的业务日志汇总在一个集中的数据存储中心一
安装与环境配置下载地址http://flume.apache.org/download.html,下载Apache Flume
binary至目标服务器解压运行环境java版本...
分类:
其他好文 时间:
2014-06-10 21:03:30
阅读次数:
451
按理说,应该在sink端限制数据的发送速度,但flume-ng提供了非常便利的interceptor模式,因此本文,就只是在source端简单的实现了对数据发送速度的限制。...
分类:
其他好文 时间:
2014-06-10 18:01:51
阅读次数:
1183
1HDFS概述HDFS是Hadoop应用用到的一个最主要的分布式存储系统。一个HDFS集群主要由一个NameNode和很多个Datanode组成:Namenode管理文件系统的元数据,而Datanode存储
了实际的数据。本文档主要关注用户以及管理员怎样和HDFS进行交互。基本上,客户端联系Name...
分类:
其他好文 时间:
2014-06-10 12:40:13
阅读次数:
275
今天碰到不少问题,记录一下。分割符的方向问题首先sqoop的参数要小心, 从数据库导出数据,写到HDFS的文件中的时候,字段分割符号和行分割符号必须要用--fields-terminated-by而不能是--input-fields-terminated-by--input前缀的使用于读文件的分割符号,便于解析文件,所以用于从HDFS文件导出到某个数据库的场景。两个方向不一样。参数必须用单引号括起...
分类:
其他好文 时间:
2014-06-08 03:23:09
阅读次数:
289
运行HBase时常会遇到个错误,我就有这样的经历。
ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times
检查日志:org.apache.hadoop.ipc.RPC$VersionMismatch: Protocol org.apache.hadoop.hdfs.protocol.ClientPr...
分类:
其他好文 时间:
2014-06-08 03:02:50
阅读次数:
395