一、相关知识回顾 分布式文件存储 信息源: 购买信息元(对海量数据清洗) 自营提供(限于大公司) 爬虫、抓包 信息格式:文件、文本、sql、json 分布式计算 离线批处理 MapReduce spark 实时数据流 storm spark Sqoop数据迁移:hdfs mysql flume数据上 ...
分类:
其他好文 时间:
2020-02-19 10:28:03
阅读次数:
94
1.问题描述:在调试mapreduce辅助排序(二次排序)的过程中,运行程序总是报错 Ignoring exception during close for org.apache.hadoop.mapred.MapTask$NewOutputCollector@1398c56java.lang.Nu ...
分类:
编程语言 时间:
2020-02-19 01:00:54
阅读次数:
103
Sqoop 简介 Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可 ...
分类:
Web程序 时间:
2020-02-18 12:47:15
阅读次数:
149
目录 前言 core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml 一、HDFS HDFS的设计理念 HDFS的缺点 1、NameNode 1.1、namenode的作用 1.2、元数据目录说明 1.3、NameNode启动 2、Secon ...
分类:
其他好文 时间:
2020-02-18 09:58:41
阅读次数:
100
YARN YARN是什么? YARN是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 如果没有YARN! 1. 无法管理集群资源分配问题。 2. 无法合理的给程序分配合理的资源。 ...
分类:
其他好文 时间:
2020-02-17 22:35:33
阅读次数:
311
pig Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台。 Pig为复杂的海量数据并行计算提供了一个简 易的操作和编程接口,这一点和FaceBook开源的Hive ...
分类:
其他好文 时间:
2020-02-17 19:32:25
阅读次数:
122
spark运行模式 下面我们来看一下spark的运行模式,根据上一篇博客我们知道spark的运行模式分为以下几种:local、standalone、hadoop yarn。我们说本地开发最好用local模式,直接搭建一个spark环境就可以跑了,因为测试的话本地是最方便的。standalone,用的 ...
分类:
其他好文 时间:
2020-02-17 18:05:26
阅读次数:
86
sqoop 是什么? sqoop 主要用于异构数据: 1. 将数据从hadoop,hive 导入、导出到关系型数据库mysql 等; 2. 将关系型数据库 mysql 中数据导入、导出到 hadoop 、hve 。 sqoop 版本说明 sqoop 1 版本主要从1.4.0 到 1.4.7;sqoo ...
分类:
其他好文 时间:
2020-02-17 18:03:50
阅读次数:
58
说起国际的Hadoop认证必须提Hadoop商业化的三家马车:Hortonwork、Cloudera和MapR。Hortonwork、Cloudera合并之后由于版本的不同目前的考试认证还是分离的,如果你目前需要一个大数据方面的认证,那真的可以了解一下Cloudera。Cloudera总共4门认证,三门CCA,分别为CCA131、CCA159、CCA175;一门CCPDE。这四门认证是没有等级关系
分类:
其他好文 时间:
2020-02-17 17:56:00
阅读次数:
103
1.1.1 全排序 (1)全排序概述 指的是让所有的输出结果都是有序的,最简单的方法就是用一个reduce任务,但是这样处理大型文件时效率极低,失去的并行架构的意义。所以可以采用分组排序的方法来实现全局排序,例如现在要实现按键的全局的排序,可以将键值按照取值范围分为n个分组,<-10℃,-10℃~0 ...
分类:
编程语言 时间:
2020-02-16 01:31:26
阅读次数:
63