搜索关键字：hadoop 2.6.0源码编译，搜索到13955个结果！码迷,mamicode.com！

大数据开发：Hadoop配置

一、相关知识回顾分布式文件存储信息源：购买信息元（对海量数据清洗）自营提供（限于大公司）爬虫、抓包信息格式：文件、文本、sql、json 分布式计算离线批处理 MapReduce spark 实时数据流 storm spark Sqoop数据迁移：hdfs mysql flume数据上 ...

分类：其他好文时间：2020-02-19 10:28:03 阅读次数：94

java.lang.NullPointerException Ignoring exception during close for org.apache.hadoop.mapred.MapTask$NewOutputCollector@1398c56

1.问题描述：在调试mapreduce辅助排序（二次排序）的过程中，运行程序总是报错 Ignoring exception during close for org.apache.hadoop.mapred.MapTask$NewOutputCollector@1398c56java.lang.Nu ...

分类：编程语言时间：2020-02-19 01:00:54 阅读次数：103

大数据 hadoop ---- Sqoop、flume、chukwa

Sqoop 简介 Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可 ...

分类：Web程序时间：2020-02-18 12:47:15 阅读次数：149

Hadoop整体概述

目录前言 core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml 一、HDFS HDFS的设计理念 HDFS的缺点 1、NameNode 1.1、namenode的作用 1.2、元数据目录说明 1.3、NameNode启动 2、Secon ...

分类：其他好文时间：2020-02-18 09:58:41 阅读次数：100

大数据篇：YARN

YARN YARN是什么? YARN是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。如果没有YARN! 1. 无法管理集群资源分配问题。 2. 无法合理的给程序分配合理的资源。 ...

分类：其他好文时间：2020-02-17 22:35:33 阅读次数：311

大数据 hadoop ------ pig 、hive、Mahout、hbase

pig Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache的一个项目，由Apache来负责维护，Pig是一个基于 Hadoop的大规模数据分析平台。 Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口，这一点和FaceBook开源的Hive ...

分类：其他好文时间：2020-02-17 19:32:25 阅读次数：122

（2）spark运行模式

spark运行模式下面我们来看一下spark的运行模式，根据上一篇博客我们知道spark的运行模式分为以下几种：local、standalone、hadoop yarn。我们说本地开发最好用local模式，直接搭建一个spark环境就可以跑了，因为测试的话本地是最方便的。standalone，用的 ...

分类：其他好文时间：2020-02-17 18:05:26 阅读次数：86

Sqoop 一点通

sqoop 是什么？ sqoop 主要用于异构数据： 1. 将数据从hadoop，hive 导入、导出到关系型数据库mysql 等; 2. 将关系型数据库 mysql 中数据导入、导出到 hadoop 、hve 。 sqoop 版本说明 sqoop 1 版本主要从1.4.0 到 1.4.7；sqoo ...

分类：其他好文时间：2020-02-17 18:03:50 阅读次数：58

如何选择适合自己的Hadoop认证证书

说起国际的Hadoop认证必须提Hadoop商业化的三家马车：Hortonwork、Cloudera和MapR。Hortonwork、Cloudera合并之后由于版本的不同目前的考试认证还是分离的，如果你目前需要一个大数据方面的认证，那真的可以了解一下Cloudera。Cloudera总共4门认证，三门CCA，分别为CCA131、CCA159、CCA175；一门CCPDE。这四门认证是没有等级关系

分类：其他好文时间：2020-02-17 17:56:00 阅读次数：103

9.2.2 hadoop全排序实例详解

1.1.1 全排序（1）全排序概述指的是让所有的输出结果都是有序的，最简单的方法就是用一个reduce任务，但是这样处理大型文件时效率极低，失去的并行架构的意义。所以可以采用分组排序的方法来实现全局排序，例如现在要实现按键的全局的排序，可以将键值按照取值范围分为n个分组，<-10℃，-10℃~0 ...

分类：编程语言时间：2020-02-16 01:31:26 阅读次数：63

共13955条上一页 1 ... 75 76 77 78 79 ... 1396 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)