码迷,mamicode.com
首页 >  
搜索关键字:hadoop 2.6.0源码编译    ( 13955个结果
2017 级课堂测试试卷—数据清洗进度记录
数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中 利用mapreduce完成将txt文件中数据存放在一个数组中,未成功连接hive数据库并存放在hive数据库中 目前完成代码: package org.apache.hadoop.examples; import java.io.IO ...
分类:其他好文   时间:2019-11-14 00:02:36    阅读次数:80
数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。
虚拟机: hadoop:3.2.0 hive:3.1.2 win10: eclipse 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: articl ...
分类:数据库   时间:2019-11-13 22:25:39    阅读次数:162
数据清洗与数据处理
package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop ...
分类:其他好文   时间:2019-11-13 22:12:52    阅读次数:117
Hive 模式设计
Hive看上去很像关系型数据库。不过,Hive实现和使用的方式和传统的关系型数据库非常不同。Hive是反模式的。 本文将重点介绍Hive中哪些模式是用户应该使用的,儿哪些是应该避免的 一、按天划分的表 这种每天一张表的方式在数据库领域是反模式的一种方式,但因为实际情况下,数据集增长的很快,这种方式应 ...
分类:其他好文   时间:2019-11-13 13:06:07    阅读次数:64
mr的partition分区
1、Partitioner 组件通过让 Map 对 Key 进行分区,从而将不同分区的 Key 交由不同的 Reduce 处理。Partition属于map端 2、分区的总数与任务的reduce任务数相同 partitioner定义: partitioner的作用是将mapper 输出的key/va ...
分类:其他好文   时间:2019-11-12 20:05:55    阅读次数:96
hadoop2.9.0之前的版本yarn RM fairScheduler调度性能优化
对一般小公司来说 可能yarn调度能力足够了 但是对于大规模集群1000 or 2000+的话 yarn的调度性能捉襟见肘 恰好网上看到一篇很好的文章https://tech.meituan.com/2019/08/01/hadoop-yarn-scheduling-performance-opti ...
分类:其他好文   时间:2019-11-12 18:39:02    阅读次数:90
Netty启动流程剖析
编者注:Netty是Java领域有名的开源网络库,特点是高性能和高扩展性,因此很多流行的框架都是基于它来构建的,比如我们熟知的Dubbo、Rocketmq、Hadoop等,针对高性能RPC,一般都是基于Netty来构建,比如soft bolt。总之一句话,Java小伙伴们需要且有必要学会使用Nett ...
分类:Web程序   时间:2019-11-12 09:12:39    阅读次数:84
Netty连接处理那些事
编者注:Netty是Java领域有名的开源网络库,特点是高性能和高扩展性,因此很多流行的框架都是基于它来构建的,比如我们熟知的Dubbo、Rocketmq、Hadoop等,针对高性能RPC,一般都是基于Netty来构建,比如soft bolt。总之一句话,Java小伙伴们需要且有必要学会使用Nett ...
分类:Web程序   时间:2019-11-12 00:26:35    阅读次数:125
Kafka原理详解
Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流 ...
分类:其他好文   时间:2019-11-11 21:47:16    阅读次数:85
关于MapReduce默认分区策略
MapReduce默认分区策略 mapreduce 默认的分区方式是hashPartition,在这种分区方式下,KV对根据key的hashcode值与reduceTask个数进行取模,决定该键值对该要访问哪个ReduceTask。 以下就是Hadoop MapReduce中对于默认分区的源码 1. ...
分类:其他好文   时间:2019-11-11 21:34:13    阅读次数:113
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!