Hadoop 中利用 mapreduce 读写 mysql 数据 Hadoop 中利用 mapreduce 读写 mysql 数据 有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv、uv 数据,然后为了实时查询的需求,或者一些 OLAP 的需求,我们需要 mapreduce ...
分类:
数据库 时间:
2017-01-06 21:47:45
阅读次数:
336
看文件信息 hadoop fsck /user/filename 更详细的 hadoop fsck /user/filename -files -blocks -locations -racks -files 文件分块信息, -blocks 在带-files参数后才显示block信息 -locati ...
分类:
其他好文 时间:
2016-12-21 02:11:59
阅读次数:
156
以前在Hadoop 1.0中JobTracker主要完成两项功能:资源的管理和作业控制。在集群规模过大的场景下,JobTracker 存在以下不足: 1)JobTracker 单点故障。 2)JobTracker 承受的访问压力大,影响系统的扩展性。 3)不支持MapReduce之外的计算框架,比如 ...
分类:
其他好文 时间:
2016-12-13 06:16:34
阅读次数:
151
在现在这个大数据时代,Hadoop和Spark是最潮流的两个词汇,Hadoop是一种分布式计算框架,由Google提出,主要用于搜索领域,解决海量数据的计算问题,Hadoop中的MapReduce包括...
分类:
其他好文 时间:
2016-12-07 18:22:29
阅读次数:
206
摘要: Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个 ...
分类:
其他好文 时间:
2016-11-27 00:02:59
阅读次数:
303
一、hadoop 2.x产生背景 1、hadoop 1.x中hdfs和mr在高可用和扩展性等方面存在问题。2、hdfs存在的问题:NN单点故障,难以应用于在线场景;NN压力过大,内存受限,影响系统扩展性。3、mr存在的问题:1.x难以支持除mr之外的计算框架,如spark和storm(mr一般得到结 ...
分类:
其他好文 时间:
2016-11-20 19:19:30
阅读次数:
341
一、简介 1.1 背景: 针对Hadoop 1.x中可能出现的NameNode单点故障(SPOF)或者短时间无法使用的情况,Hadoop 2.x 通过增加一个NameNode的方式进行了改善,而增加一个NameNode后,实际在没有出现问题时,只需要一个NameNode,所以两个NameNode一个 ...
分类:
其他好文 时间:
2016-10-31 07:10:46
阅读次数:
201
一、背景 Hadoop-2.6.0中,通过一系列复杂的配置,尤其是LinuxContainerExecutor和CgroupsLCEResourcesHandler这两个组件的使用,使得应用...
分类:
其他好文 时间:
2016-09-27 13:36:10
阅读次数:
844
出现这个问题, 我首先去找了一下几个问题: 1.文件是否是utf-8 2.上传到Linux中的hadoop, 在Linux下去查看是否乱码 3.上面都没有问题, 就去检查eclipse,将项目工程改成了utf-8, 发现不行 4.看了一下的介绍, 将eclipse的系统设置改成了uft-8, 就可以 ...
分类:
系统相关 时间:
2016-09-24 20:21:03
阅读次数:
200
转载http://my.oschina.net/Chanthon/blog/150500 map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务就没有并行 ...
分类:
其他好文 时间:
2016-09-24 11:55:35
阅读次数:
143