一、部署前的准备 (1)软件 一个空白的CentOS映像文件 Xshell(用于传输文件) (2)虚拟机配置 网络配置:网络适配器选择桥接 ip地址、子网掩码、网关、DNS服务器地址 =>可以在安装时的图形界面完成配置 =》也可以 vim /etc/sysconfig/network-script/ ...
分类:
其他好文 时间:
2020-02-20 17:20:50
阅读次数:
82
在opt目录创建install software test other四个目录 /opt/installed #安装包/opt/software #软件包/opt/other #其他/opt/test #测试 1.上传hadoop yum install lrzsz //安装lrzsz用于上传 cd ...
分类:
其他好文 时间:
2020-02-20 17:02:30
阅读次数:
92
1.使用hadoop是需要jdk环境的,因为hadoop里面有java程序,而运行java程序需要jdk。 2.从宿主机上传文件到虚拟机有很多方法,我选择的是在虚拟机安装lrzsz,安装lrzsz命令行:yum install y lrzsz 3.确定好软件安装路径 /opt 工作目录 /opt/i ...
分类:
其他好文 时间:
2020-02-20 15:34:25
阅读次数:
143
一、相关知识回顾 分布式文件存储 信息源: 购买信息元(对海量数据清洗) 自营提供(限于大公司) 爬虫、抓包 信息格式:文件、文本、sql、json 分布式计算 离线批处理 MapReduce spark 实时数据流 storm spark Sqoop数据迁移:hdfs mysql flume数据上 ...
分类:
其他好文 时间:
2020-02-19 10:28:03
阅读次数:
94
1.问题描述:在调试mapreduce辅助排序(二次排序)的过程中,运行程序总是报错 Ignoring exception during close for org.apache.hadoop.mapred.MapTask$NewOutputCollector@1398c56java.lang.Nu ...
分类:
编程语言 时间:
2020-02-19 01:00:54
阅读次数:
103
Sqoop 简介 Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可 ...
分类:
Web程序 时间:
2020-02-18 12:47:15
阅读次数:
149
目录 前言 core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml 一、HDFS HDFS的设计理念 HDFS的缺点 1、NameNode 1.1、namenode的作用 1.2、元数据目录说明 1.3、NameNode启动 2、Secon ...
分类:
其他好文 时间:
2020-02-18 09:58:41
阅读次数:
100
YARN YARN是什么? YARN是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 如果没有YARN! 1. 无法管理集群资源分配问题。 2. 无法合理的给程序分配合理的资源。 ...
分类:
其他好文 时间:
2020-02-17 22:35:33
阅读次数:
311
pig Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台。 Pig为复杂的海量数据并行计算提供了一个简 易的操作和编程接口,这一点和FaceBook开源的Hive ...
分类:
其他好文 时间:
2020-02-17 19:32:25
阅读次数:
122