数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中 利用mapreduce完成将txt文件中数据存放在一个数组中,未成功连接hive数据库并存放在hive数据库中 目前完成代码: package org.apache.hadoop.examples; import java.io.IO ...
分类:
其他好文 时间:
2019-11-14 00:02:36
阅读次数:
80
虚拟机: hadoop:3.2.0 hive:3.1.2 win10: eclipse 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: articl ...
分类:
数据库 时间:
2019-11-13 22:25:39
阅读次数:
162
package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop ...
分类:
其他好文 时间:
2019-11-13 22:12:52
阅读次数:
117
Hive看上去很像关系型数据库。不过,Hive实现和使用的方式和传统的关系型数据库非常不同。Hive是反模式的。 本文将重点介绍Hive中哪些模式是用户应该使用的,儿哪些是应该避免的 一、按天划分的表 这种每天一张表的方式在数据库领域是反模式的一种方式,但因为实际情况下,数据集增长的很快,这种方式应 ...
分类:
其他好文 时间:
2019-11-13 13:06:07
阅读次数:
64
1、Partitioner 组件通过让 Map 对 Key 进行分区,从而将不同分区的 Key 交由不同的 Reduce 处理。Partition属于map端 2、分区的总数与任务的reduce任务数相同 partitioner定义: partitioner的作用是将mapper 输出的key/va ...
分类:
其他好文 时间:
2019-11-12 20:05:55
阅读次数:
96
对一般小公司来说 可能yarn调度能力足够了 但是对于大规模集群1000 or 2000+的话 yarn的调度性能捉襟见肘 恰好网上看到一篇很好的文章https://tech.meituan.com/2019/08/01/hadoop-yarn-scheduling-performance-opti ...
分类:
其他好文 时间:
2019-11-12 18:39:02
阅读次数:
90
编者注:Netty是Java领域有名的开源网络库,特点是高性能和高扩展性,因此很多流行的框架都是基于它来构建的,比如我们熟知的Dubbo、Rocketmq、Hadoop等,针对高性能RPC,一般都是基于Netty来构建,比如soft bolt。总之一句话,Java小伙伴们需要且有必要学会使用Nett ...
分类:
Web程序 时间:
2019-11-12 09:12:39
阅读次数:
84
编者注:Netty是Java领域有名的开源网络库,特点是高性能和高扩展性,因此很多流行的框架都是基于它来构建的,比如我们熟知的Dubbo、Rocketmq、Hadoop等,针对高性能RPC,一般都是基于Netty来构建,比如soft bolt。总之一句话,Java小伙伴们需要且有必要学会使用Nett ...
分类:
Web程序 时间:
2019-11-12 00:26:35
阅读次数:
125
Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流 ...
分类:
其他好文 时间:
2019-11-11 21:47:16
阅读次数:
85
MapReduce默认分区策略 mapreduce 默认的分区方式是hashPartition,在这种分区方式下,KV对根据key的hashcode值与reduceTask个数进行取模,决定该键值对该要访问哪个ReduceTask。 以下就是Hadoop MapReduce中对于默认分区的源码 1. ...
分类:
其他好文 时间:
2019-11-11 21:34:13
阅读次数:
113