编者注:Netty是Java领域有名的开源网络库,特点是高性能和高扩展性,因此很多流行的框架都是基于它来构建的,比如我们熟知的Dubbo、Rocketmq、Hadoop等。本文就netty线程模型展开分析讨论下 : ) IO模型 BIO:同步阻塞IO模型; NIO:基于IO多路复用技术的“非阻塞同步 ...
分类:
编程语言 时间:
2019-11-17 10:28:47
阅读次数:
86
Hive数据倾斜 key分布不均匀 业务数据本身的特性 SQL语句造成数据倾斜 解决方法 hive设置hive.map.aggr=true和hive.groupby.skewindata=true 还有其他解决方案 Hive内部表和外部表的区别 Hive 创建内部表时,会将数据移动到数据仓库指向的路 ...
分类:
其他好文 时间:
2019-11-17 10:23:34
阅读次数:
94
·按照地市统计最受欢迎的Top10课程 (ip) Dao层 package echart; import java.sql.Connection; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Sta ...
分类:
其他好文 时间:
2019-11-17 09:12:27
阅读次数:
95
大数据从入门到入土 语言基础:java(Java se,javaweb) Linux 基础:Linux(shell,高并发架构,lucene,solr) 框架学习:Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) ...
分类:
其他好文 时间:
2019-11-16 21:47:53
阅读次数:
107
zookeeper简介 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 使用案例 dubbo、d ...
分类:
其他好文 时间:
2019-11-16 17:19:04
阅读次数:
52
首先虚拟机上已经安装好hive。 下面是连接hive需要的操作。 一、配置。 1.查找虚拟机的ip 输入 ifconfig 2.配置文件 (1)配置hadoop目录下的core-site.xml和hdfs-site.xml 在core-site.xml中添加下面配置: <property> <nam ...
分类:
数据库 时间:
2019-11-16 14:55:09
阅读次数:
118
Hbase是一个分布式的、面向列的开源数据库,可实时的读写、随机访问超大规模的数据集。 Hbase主要分为两种模型: 逻辑模型和物理模型 1. 逻辑模型 Hbase的名字的来源是Hadoop database,即为Hadoop数据库,从用户的角度来考虑,就是如何使用Hbase。 2. 物理模型 主要 ...
分类:
其他好文 时间:
2019-11-16 10:52:28
阅读次数:
70
I、下载并且解压hive #下载hive wget http://apache.claz.org/hive/hive-2.3.6/apache-hive-2.3.6-bin.tar.gz #解压 tar zxf apache-hive-2.3.6-bin.tar.gz #移动到hadoop文件夹中 ...
分类:
其他好文 时间:
2019-11-15 22:29:48
阅读次数:
83
求平均数是MapReduce比较常见的算法,求平均数的算法也比较简单,一种思路是Map端读取数据,在数据输入到Reduce之前先经过shuffle,将map函数输出的key值相同的所有的value值形成一个集合value-list,然后将输入到Reduce端,Reduce端汇总并且统计记录数,然后作 ...
分类:
其他好文 时间:
2019-11-15 12:19:47
阅读次数:
77
继上篇 MapReduce清洗数据 package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import ...
分类:
其他好文 时间:
2019-11-14 22:09:54
阅读次数:
88