码迷,mamicode.com
首页 >  
搜索关键字:hadoop中    ( 495个结果
Hadoop中的一些基本操作
先粗略说一下“hadoop fs”和“hadoop dfs”的区别:fs是各比较抽象的层面,在分布式环境中,fs就是dfs,但在本地环境中,fs是local file system,这个时候dfs不可用。1、列出HDFS文件:?1hadoopfs–lsa) –ls后面不跟任何内容的话是列出HDFS的...
分类:其他好文   时间:2015-09-15 21:36:18    阅读次数:154
hive、Hasee、pig区别.docx
Hive 起源于FaceBook,Hive在Hadoop中扮演数据仓库的角色。建立在Hadoop集群的最顶层,对存储在Hadoop群上的数据提供类SQL的接口进行操作。你可以用?HiveQL进行select,join,等等操作。 如果你有数据仓库的需求并且...
分类:其他好文   时间:2015-09-10 14:29:34    阅读次数:226
Hadoop资源调度器
hadoop调度器的作用是将系统中空闲的资源按一定策略分配给作业。调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为:1.基于队列的FIFO(先进先出) hadoop默认的资源调度器。优点:简单明了。缺点:忽略了不同作业的需求差异。2.计算....
分类:其他好文   时间:2015-09-06 16:18:37    阅读次数:270
Hadoop中MapReduce多种join实现实例分析
一、概述 对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理...
分类:其他好文   时间:2015-09-06 13:14:21    阅读次数:175
关于hadoop中的DBInputFormat试验
1、注意,需要声明为静态内部类,否则会报java.lang.NoSuchMethodException...<init>的错误 public static class MySqlWritable implements Writable, DBWritable { 2、如果输出目录存在,需要先删除 3、由于需要...
分类:数据库   时间:2015-09-04 02:23:27    阅读次数:419
hadoop 数据采样
http://www.cnblogs.com/xuxm2007/archive/2012/03/04/2379143.html原文地址如上:关于Hadoop中的采样器1.为什么要使用采样器在这个网页上有一段描述比较靠谱 http://www.philippeadjiman.com/blog/2009...
分类:其他好文   时间:2015-08-31 19:07:48    阅读次数:171
盘点SQL on Hadoop中用到的主要技术
转载自:http://sunyi514.github.io/2014/11/15/%E7%9B%98%E7%82%B9sql-on-hadoop%E4%B8%AD%E7%94%A8%E5%88%B0%E7%9A%84%E4%B8%BB%E8%A6%81%E6%8A%80%E6%9C%AF/ 自打Hi...
分类:数据库   时间:2015-08-30 12:50:52    阅读次数:240
Spark整理(一):Spark是啥以及能干啥
一、Spark是什么 1、与Hadoop的关系 如今Hadoop已经不能狭义地称它为软件了,Hadoop广泛的说可以是一套完整的生态系统,可以包括HDFS、Map-Reduce、HBASE、HIVE等等。。 而Spark是一个计算框架,注意,是计算框架 其可以运行在Hadoop之上,绝大部分情况下是基于HDFS 说代替Hadoop其实是代替Hadoop中的Map-Reduce,用来解决M...
分类:其他好文   时间:2015-08-30 01:07:34    阅读次数:1083
Hadoop中两表JOIN的处理方法(转)
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。...
分类:其他好文   时间:2015-08-29 23:02:44    阅读次数:171
Hive
1.Hive概述1.1在hadoop生态圈中属于数据仓库的角色。它能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为Map...
分类:其他好文   时间:2015-08-17 19:28:48    阅读次数:197
495条   上一页 1 ... 28 29 30 31 32 ... 50 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!