搜索关键字：hadoop 2.6.0源码编译，搜索到13955个结果！码迷,mamicode.com！

2017 级课堂测试试卷—数据清洗进度记录

数据清洗：按照进行数据清洗，并将清洗后的数据导入hive数据库中利用mapreduce完成将txt文件中数据存放在一个数组中，未成功连接hive数据库并存放在hive数据库中目前完成代码： package org.apache.hadoop.examples; import java.io.IO ...

分类：其他好文时间：2019-11-14 00:02:36 阅读次数：80

数据清洗：按照进行数据清洗，并将清洗后的数据导入hive数据库中。

虚拟机： hadoop:3.2.0 hive:3.1.2 win10： eclipse 两阶段数据清洗：（1）第一阶段：把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章： articl ...

分类：数据库时间：2019-11-13 22:25:39 阅读次数：162

数据清洗与数据处理

package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop ...

分类：其他好文时间：2019-11-13 22:12:52 阅读次数：117

Hive 模式设计

Hive看上去很像关系型数据库。不过，Hive实现和使用的方式和传统的关系型数据库非常不同。Hive是反模式的。本文将重点介绍Hive中哪些模式是用户应该使用的，儿哪些是应该避免的一、按天划分的表这种每天一张表的方式在数据库领域是反模式的一种方式，但因为实际情况下，数据集增长的很快，这种方式应 ...

分类：其他好文时间：2019-11-13 13:06:07 阅读次数：64

mr的partition分区

1、Partitioner 组件通过让 Map 对 Key 进行分区，从而将不同分区的 Key 交由不同的 Reduce 处理。Partition属于map端 2、分区的总数与任务的reduce任务数相同 partitioner定义： partitioner的作用是将mapper 输出的key/va ...

分类：其他好文时间：2019-11-12 20:05:55 阅读次数：96

hadoop2.9.0之前的版本yarn RM fairScheduler调度性能优化

对一般小公司来说可能yarn调度能力足够了但是对于大规模集群1000 or 2000+的话 yarn的调度性能捉襟见肘恰好网上看到一篇很好的文章https://tech.meituan.com/2019/08/01/hadoop-yarn-scheduling-performance-opti ...

分类：其他好文时间：2019-11-12 18:39:02 阅读次数：90

Netty启动流程剖析

编者注：Netty是Java领域有名的开源网络库，特点是高性能和高扩展性，因此很多流行的框架都是基于它来构建的，比如我们熟知的Dubbo、Rocketmq、Hadoop等，针对高性能RPC，一般都是基于Netty来构建，比如soft bolt。总之一句话，Java小伙伴们需要且有必要学会使用Nett ...

分类：Web程序时间：2019-11-12 09:12:39 阅读次数：84

Netty连接处理那些事

编者注：Netty是Java领域有名的开源网络库，特点是高性能和高扩展性，因此很多流行的框架都是基于它来构建的，比如我们熟知的Dubbo、Rocketmq、Hadoop等，针对高性能RPC，一般都是基于Netty来构建，比如soft bolt。总之一句话，Java小伙伴们需要且有必要学会使用Nett ...

分类：Web程序时间：2019-11-12 00:26:35 阅读次数：125

Kafka原理详解

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流 ...

分类：其他好文时间：2019-11-11 21:47:16 阅读次数：85

关于MapReduce默认分区策略

MapReduce默认分区策略 mapreduce 默认的分区方式是hashPartition，在这种分区方式下，KV对根据key的hashcode值与reduceTask个数进行取模，决定该键值对该要访问哪个ReduceTask。以下就是Hadoop MapReduce中对于默认分区的源码 1. ...

分类：其他好文时间：2019-11-11 21:34:13 阅读次数：113