码迷,mamicode.com
首页 >  
搜索关键字:hadoop中    ( 495个结果
Hadoop中的排序的设计
排序经常会用,但是怎么在大数据中,以Map,Reduce这种形式来进行实现了?首先你要明确目标对象,对谁进行排序,如果是自定义的对象,需要实现其CompareTo方法,因为这个是对象之间比较大小的方法。另外你需要设计排序策略,特殊情况,正常情况,编程的时候,应该先写特殊情况..
分类:编程语言   时间:2017-05-18 20:23:36    阅读次数:174
Partioner的理解
partioner在Hadoop中是干什么的?其实这个都是为shuffle服务的,怎么说,其实就是根据一些策略,将这个分区里面的那些数据分配给哪个reducer,举个例子,有很多关键字key1,text1,key2,text2,有两个reducer1,reducer2,为什么会将key1,走的是reduce1,key2,走的是reduce2,为什..
分类:其他好文   时间:2017-05-18 20:14:24    阅读次数:146
Hadoop中文编码乱码相关问题
mapreduce程序处理GBK编码数据并输出GBK编码数据, hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式,但是对于中文的输出window系统默认的是GBK,有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时,输出的结果为乱码,只能由 ...
分类:其他好文   时间:2017-05-16 23:18:42    阅读次数:177
Hive入门知识
Hive 是建立在 Hadoop 上的数据仓库基础构架,它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。由于 Hive 是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。因此,Hive 中不支持对数据的改写和 ...
分类:其他好文   时间:2017-05-12 20:19:16    阅读次数:141
2017.5.11 Yarn
Yarn在hadoop中的位置 Yarn的优点 Yarn运行机制 YARN主要由RM、NM、AM和Container等4个组件构成 ResourceManager : 处理客户端请求 启动和监控ApplicationMaster 监控NodeManager 资源的分配与调度 NodeManager: ...
分类:其他好文   时间:2017-05-11 18:27:40    阅读次数:191
Apache Sqoop - Overview Apache Sqoop 概述
使用Hadoop来分析和处理数据需要将数据加载到集群中并且将它和企业生产数据库中的其他数据进行结合处理。从生产系统加载大块数据到Hadoop中或者从大型集群的map reduce应用中获得数据是个挑战。用户必须意识到确保数据一致性,消耗生产系统资源,供应下游管道的数据预处理这些细节。用脚本来转化数据 ...
分类:Web程序   时间:2017-05-05 01:01:44    阅读次数:235
大数据学习:Hadoop中伪分布的搭建
<注:我们假设使用的是一个没有进行过任何配置的Linux系统,下面我们开始进行伪分布的搭建> 1.设置IP 地址 设置完成后,执行命令:service iptables restart 验证: ifconfig 2. 关闭防火墙 执行命令 service iptables stop 验证: serv ...
分类:其他好文   时间:2017-04-28 23:37:19    阅读次数:242
MapReduce实现两表的Join--原理及python和java代码实现
用Hive一句话搞定的,但是有时必须要用mapreduce 方法介绍 1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且...
分类:编程语言   时间:2017-04-20 11:01:23    阅读次数:739
Hadoop安全机制之令牌
介绍 Hadoop中的安全机制包括认证和授权。而Hadoop RPC中采用SASL(Simple Authentication and Security Layer,简单认证和安全层)进行安全认证,具体认证方法涉及Kerberos和DIGEST-MD5两种。 在这种机制中,Kerberos用于在客户 ...
分类:其他好文   时间:2017-04-17 19:56:48    阅读次数:234
Hadoop-2.2.0中文文档—— 从Hadoop 1.x 迁移至 Hadoop 2.x
简单介绍 本文档对从 Apache Hadoop 1.x 迁移他们的Apache Hadoop MapReduce 应用到 Apache Hadoop 2.x 的用户提供了一些信息。 在 Apache Hadoop 2.x 中,我们已经把资源管理功能放入 分布式应用管理框架 的Apache Hado ...
分类:其他好文   时间:2017-04-16 18:55:48    阅读次数:282
495条   上一页 1 ... 14 15 16 17 18 ... 50 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!