前段时间业务系统有个模块数据没有了,在排查问题的时候发现中间处理环节出错了,错误日志为文件格式不正确,将数据导出后发现这个处理逻辑的输入文件中每一行都多了一列,而且是一个空列(列分隔符是\t)。第一次检查代码后没发现代码里多写了一列,第二次排查Reduce代码时,发现在写文件时value为空的Tex...
分类:
其他好文 时间:
2014-07-16 21:46:49
阅读次数:
200
[Spark亚太研究院 决战云计算大数据时代 100期公益大讲堂 互动问答]Q1:我想问,hdfs的namenode挂了,怎么处理? 使用ZooKeeper; 使用Mesos; 使用Yarn;Q2:用python和scala区别大吗? 就代码的风格而言是不大的; 世界上也有很多人使用python开发...
分类:
其他好文 时间:
2014-07-16 19:09:29
阅读次数:
294
1.flume的基本概念
本文中所有与flume相关术语都采用斜体英文表示,这些术语的含义如下所示。
flume 一个可靠的,分布式的,用于采集,聚合,传输海量日志数据的系统。
Web Server 一个产生 Events 的系统。
Agent flume 系统中的一个节点,它主要包含三个部件:Source, Channel...
分类:
其他好文 时间:
2014-07-15 12:59:26
阅读次数:
402
一个问题困扰了很久,用sqoop import从mysql数据库导入到HDFS中的时候一直报错,最后才发现是一个时间日期类型的非法值导致。hive只支持timestamp类型,而mysql中的日期类型是datetime, 当datetime的值为0000-00-00 00:00:00的时候,sqoop import无法将其转换成hive, 然后报错。解决方法是在hive中使用string字段类型。...
分类:
其他好文 时间:
2014-07-15 12:58:08
阅读次数:
342
# 学习前言
框架整合中用到的所有工程代码,jar包什么的都已经上传到群214293307共享中,需要的话自己下载研究了。
# Flume的学习请参考_00016 Flume的体系结构介绍以及Flume入门案例(往HDFS上传数据)这篇博文
# Kafka的学习请参考_00017 Kafka的体系结构介绍以及Kafka入门案例(初级案例+Java API的使用)这篇博文
# Storm的学习请参考_00019 Storm的体系结构介绍以及Storm入门案例(官网上的简单Java案例)这篇博文
请学习...
分类:
其他好文 时间:
2014-07-14 18:32:41
阅读次数:
574
回 到 目 录最近要从网上抓取数据下来,然后hadoop来做存储和分析。每晚尽量更新呆毛王赛高月子酱赛高小唯酱赛高目录 安装hadoop1.0.3 HDFS wordcount mapreduce去重 mapreduce算平均分 mapreduce排序安装hadoop1.0.3 1 u...
分类:
其他好文 时间:
2014-07-14 15:14:34
阅读次数:
279
http://blog.csdn.net/greatelite/article/details/18676281遇到的问题:在连接到hdfs服务器上,一直提示unable to connect to HDFS Server解决过程中:①网上找了各种说是jar包驱动不兼容,端口号不对,最后都没解决②最...
分类:
其他好文 时间:
2014-07-13 00:38:07
阅读次数:
632
对于hadoop HDFS 中的所有命令进行解析(其中操作流程是自己的想法有不同意见欢迎大家指正)
接口名称
功能
操作流程
get
将文件复制到本地文件系统 。如果指定了多个源文件,本地目的端必须是一个目录。
(1)按照上述机制,在Config server上的存储引擎中逐层读取K-V,直到获得文件名(或大文件元数据...
分类:
其他好文 时间:
2014-07-12 22:25:59
阅读次数:
389
课程主要涉及Hadoop Sqoop、Flume、Avro重要子项目的技术实战
课程针对人群
1、本课程适合于有一定java基础知识,对数据库和sql语句有一定了解,熟练使用linux系统的技术人员,特别适合于想换工作或寻求高薪职业的人士
2、最好有Greenplum Hadoop、Hadoop2.0、YARN、Sqoop、FlumeAvro等大数据基础,学习过北风课程《Gree...
分类:
其他好文 时间:
2014-07-12 20:58:37
阅读次数:
220