sqoop 是什么? sqoop 主要用于异构数据: 1. 将数据从hadoop,hive 导入、导出到关系型数据库mysql 等; 2. 将关系型数据库 mysql 中数据导入、导出到 hadoop 、hve 。 sqoop 版本说明 sqoop 1 版本主要从1.4.0 到 1.4.7;sqoo ...
分类:
其他好文 时间:
2020-02-17 18:03:50
阅读次数:
58
说起国际的Hadoop认证必须提Hadoop商业化的三家马车:Hortonwork、Cloudera和MapR。Hortonwork、Cloudera合并之后由于版本的不同目前的考试认证还是分离的,如果你目前需要一个大数据方面的认证,那真的可以了解一下Cloudera。Cloudera总共4门认证,三门CCA,分别为CCA131、CCA159、CCA175;一门CCPDE。这四门认证是没有等级关系
分类:
其他好文 时间:
2020-02-17 17:56:00
阅读次数:
103
NIO和BIO最大的区别就是只需要开启一个线程就可以处理来自多个客户端的IO事件。 BIO:同步阻塞式IO,服务器实现模式为一个连接建立一个线程,即客户端有连接请求时,服务器端就需要启动一个线程进行处理,如果这个连接不做任何事情,会造成不必要的线程开销,可以通过线程池机制改善 BIO原理:单线程:同 ...
分类:
其他好文 时间:
2020-02-17 14:16:14
阅读次数:
76
Web容器 web容器(web服务器)主要有:Apache、IIS、Tomcat、Jetty、JBoss、webLogic等,而Tomcat、Jetty、JBoss、webLogic同时也是servlet容器,或者说他们还包含了servlet容器。没有servlet容器,你也可以用web容器直接访问 ...
分类:
编程语言 时间:
2020-02-16 20:55:47
阅读次数:
87
1.1.1 全排序 (1)全排序概述 指的是让所有的输出结果都是有序的,最简单的方法就是用一个reduce任务,但是这样处理大型文件时效率极低,失去的并行架构的意义。所以可以采用分组排序的方法来实现全局排序,例如现在要实现按键的全局的排序,可以将键值按照取值范围分为n个分组,<-10℃,-10℃~0 ...
分类:
编程语言 时间:
2020-02-16 01:31:26
阅读次数:
63
任务的默认排序 MapTask和ReduceTask都会默认对数据按照key进行排序,不管逻辑上是否需要。默认是按照字典顺序排序,且实现该排序的方法是快速排序。但是map和reduce任务只能保证单个任务内部输出有序,不能保证所有输出全局有序。 MapTask,当环形缓冲区使用率到达一定阈值后进行一 ...
分类:
编程语言 时间:
2020-02-16 01:06:19
阅读次数:
74
(一)HDFS简介及其基本概念 HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HD ...
分类:
其他好文 时间:
2020-02-15 18:47:15
阅读次数:
65
距离上次博客时间已经9天,简单记录下这几天的学习过程 2020-02-15 10:38:47 一、Linux学习 关于Linux命令,我在之前就已经学过一部分了,所以这段时间的linux学习更多的是去学习Linux系统的安装以及相关配置多一些,命令会一些比较常用的就够了,下面记录下安装配置Linux ...
分类:
系统相关 时间:
2020-02-15 13:41:12
阅读次数:
94
Hadoop生态架构技术 1、语言基础 Java:掌握javase知识,多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以,不需要深入掌握。 Linux:系统安装(命令行界面和图形界面)、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等 ...
分类:
其他好文 时间:
2020-02-15 00:16:06
阅读次数:
86
官方讲解: Apache Hadoop 为可靠的,可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。 个人理解: Hadoop就是一些模块的相对简称!! 那Hadoop到底指的哪些模块??以及他们是干嘛 ...
分类:
其他好文 时间:
2020-02-15 00:12:46
阅读次数:
135