Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive的数据管理。
分类:
其他好文 时间:
2014-07-22 22:54:13
阅读次数:
243
从hive将数据导出到mysqlhttp://abloz.com2012.7.20author:周海汉在上一篇文章《用sqoop进行mysql和hdfs系统间的数据互导》中,提到sqoop可以让RDBMS和HDFS之间互导数据,并且也支持从mysql中导入到HBase,但从HBase直接导入mysq...
分类:
数据库 时间:
2014-07-18 20:00:07
阅读次数:
482
最近项目中遇到了存储在HDFS上的数据格式不对,是由于数据中带有\r\n的字符,程序处理的时候没有考虑到这些情况。历史数据大概有一年的时间,需要把错误的数据或者重复的数据给删除了,保留正确的数据,项目中使用Pig来进行数据处理,所以我写了一个UDF的JAVA类去过滤那些错误的数据,把错误的数据和正确...
分类:
其他好文 时间:
2014-07-18 17:33:40
阅读次数:
246
案例:Hadoop jar引用:hadoop jar -libjars aa.jar bb.jar ….jar包会被上传到hdfs,然后分发到每个datanode假设有20个jar文件,每天jar文件被上传上万次,分发达上万次(百G级),造成很严重的IO开销。如何使这些jar包在HDFS上进行缓存,...
分类:
其他好文 时间:
2014-07-18 00:23:59
阅读次数:
265
[Spark亚太研究院 决战云计算大数据时代 100期公益大讲堂 互动问答]Q1:我想问,hdfs的namenode挂了,怎么处理? 使用ZooKeeper; 使用Mesos; 使用Yarn;Q2:用python和scala区别大吗? 就代码的风格而言是不大的; 世界上也有很多人使用python开发...
分类:
其他好文 时间:
2014-07-16 19:09:29
阅读次数:
294
HDFS和MapReduce是Hadoop的两大核心。而整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持的,并且它会通过MapReduce来实现对分布式并行任务处理的程序支持。
分类:
其他好文 时间:
2014-07-16 16:11:21
阅读次数:
275
hadoop支持命令行操作HDFS文件系统,并且支持shell-like命令与HDFS文件系统交互,对于大多数程序猿/媛来说,shell-like命令行操作都是比较熟悉的,其实这也是Hadoop的极大便利之一,至少对于想熟悉乃至尽快熟练操作HDFS的人来说。
分类:
其他好文 时间:
2014-07-16 15:39:42
阅读次数:
485
一个问题困扰了很久,用sqoop import从mysql数据库导入到HDFS中的时候一直报错,最后才发现是一个时间日期类型的非法值导致。hive只支持timestamp类型,而mysql中的日期类型是datetime, 当datetime的值为0000-00-00 00:00:00的时候,sqoop import无法将其转换成hive, 然后报错。解决方法是在hive中使用string字段类型。...
分类:
其他好文 时间:
2014-07-15 12:58:08
阅读次数:
342
# 学习前言
框架整合中用到的所有工程代码,jar包什么的都已经上传到群214293307共享中,需要的话自己下载研究了。
# Flume的学习请参考_00016 Flume的体系结构介绍以及Flume入门案例(往HDFS上传数据)这篇博文
# Kafka的学习请参考_00017 Kafka的体系结构介绍以及Kafka入门案例(初级案例+Java API的使用)这篇博文
# Storm的学习请参考_00019 Storm的体系结构介绍以及Storm入门案例(官网上的简单Java案例)这篇博文
请学习...
分类:
其他好文 时间:
2014-07-14 18:32:41
阅读次数:
574
回 到 目 录最近要从网上抓取数据下来,然后hadoop来做存储和分析。每晚尽量更新呆毛王赛高月子酱赛高小唯酱赛高目录 安装hadoop1.0.3 HDFS wordcount mapreduce去重 mapreduce算平均分 mapreduce排序安装hadoop1.0.3 1 u...
分类:
其他好文 时间:
2014-07-14 15:14:34
阅读次数:
279