搜索关键字：hadoop outputformat，搜索到13980个结果！码迷,mamicode.com！

Hive -- 原理篇

前言一个简单的理解：把SQL的一些操作应用在hadoop的HDFS上面。数据库与数据仓库数据库：传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。数据仓库：数据仓库系统的主要应用主要是OLAP（On-Line Analytical Processing），支持复杂的分 ...

分类：其他好文时间：2020-05-28 23:08:21 阅读次数：62

初识HDFS（10分钟了解HDFS、NameNode和DataNode）

概览首先我们来认识一下HDFS， HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件，为了降低文件丢失造成的错误，它会为每个小文件复制多个副本（默 ...

分类：其他好文时间：2020-05-28 18:13:32 阅读次数：84

解决 hive maPredue转换hivesql出错Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

找到hadoop安装目录下$HADOOP_HOME/etc/mapred-site.xml,增加以下代码 <property> <name>yarn.app.mapreduce.am.env</name> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value ...

分类：移动开发时间：2020-05-28 16:35:18 阅读次数：115

hadoop hdfs csv导入hive表

create table toys.test (id int, x0 double, x1 double, x2 double, x3 double) row format delimited fields terminated by ',' stored as textfile; 先在hive 数 ...

分类：其他好文时间：2020-05-28 16:09:46 阅读次数：82

hadoop 伪分布式单机部署练习hive

第一步环境准备： jdk安装，用户用组新建 useradd -m hadoop passwd hadoop 修改密码添加用户hadoop到hadoop用户组 wget https://downloads.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3. ...

分类：其他好文时间：2020-05-27 20:47:07 阅读次数：90

Parquet 列示存储结构

Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, d ...

分类：其他好文时间：2020-05-27 15:57:13 阅读次数：104

hadoop伪集群部署

软件环境：VMware10.0，VMware10,ubuntu15.10桌面版（ubuntukylin-15.10-desktop-i386.iso），Apache hadoop（hadoop-1.2.1.tar.gz），JDK（jdk-8u11-linux-i586.tar.gz）一安装JDK ...

分类：其他好文时间：2020-05-27 00:47:44 阅读次数：69

大数据之Spark单词统计

题目三：使用Spark Core 统计文件中以spark开头的单词中，每个单词出现的次数（共计30分） spark-core hadoop linux java spark-sql storm html css vue spark spring springboot struts spark-hiv ...

分类：其他好文时间：2020-05-26 22:06:21 阅读次数：102

oracleSQL 转 SPARKSQL（hiveSql）及常用优化

背景数据处理平台从oracle迁移到hadoop平台后，原有的数据处理过程需要改写为sparkSql。由于sparkSql执行环境和数据的不确定，经常有资源竞争导致处理过程意外停止，数据倾斜导致任务执行失败。为减少出错概率，需要对sparkSql进行规范与优化。转换 1. exist 转换为 ...

分类：数据库时间：2020-05-25 19:47:59 阅读次数：94

Flink核心概念

分布式缓存分布式缓存的思想在hadoop和spark中都有体现，Flink 提供的分布式缓存类似 Hadoop，目的是为了在分布式环境中让每一个 TaskManager 节点保存一份相同的数据或者文件，当前计算节点的 task 就像读取本地文件一样拉取这些配置。比如在进行表与表 Join 操作时 ...

分类：其他好文时间：2020-05-25 19:29:56 阅读次数：60

共13980条上一页 1 ... 43 44 45 46 47 ... 1398 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)