码迷,mamicode.com
首页 >  
搜索关键字:hdfs 元数据管理    ( 5040个结果
03hive_DDL数据定义
一. DDL数据定义 创建数据库 1)create database db_hive; 2)避免要创建的数据库已经存在错误,增加 if not exists 判断。 create database if not exists db_hive; 3)创建一个数据库,指定数据库在 HDFS 上存放的位置 ...
分类:其他好文   时间:2020-01-26 11:43:56    阅读次数:67
hbase原理
Hbase:基于hdfs的数据库,来源于google的一篇论文bigtable.基于HDFS实现高可用、分布式、列式存储、核心包括:-Rowkey: 可以简单理解成mysql中的主键-列簇,列-时间戳按照Rowkey字典顺序存储,基于rowkey的高效检索,同时继承hdfs的高吞吐能力。Hbase用 ...
分类:其他好文   时间:2020-01-25 15:31:49    阅读次数:94
小记--------spark-job触发流程源码分析
job是串行执行的, 执行完上一个才执行下一个 eg:Wordcount案例 val lines = sc.textFile("本地URL or HDFS URL")//详解见代码1 val words = lines.flatMap(line => line.split(" "))//也会返回一个 ...
分类:其他好文   时间:2020-01-25 00:56:57    阅读次数:119
spark实验3
一、实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法; (2)熟悉 HDFS 的基本使用方法; (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法。 二、实验平台 操作系统:Ubuntu16.04; Spark 版本:2.1.0; Hadoop 版 ...
分类:其他好文   时间:2020-01-24 17:13:10    阅读次数:113
hive导出数据到本地文件报错解决方法
hive导出到本地数据报错 Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Unable to move source hdfs://localhost:9000/tmp/hive/daisy/ ...
分类:其他好文   时间:2020-01-24 15:50:13    阅读次数:201
1 flume基础入门
flume 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的 海量日志采集、聚合和传输的系统 。Flume基于流式架构,灵活简单。 大数据框架大致分为3类: 数据的采集和传输:flume 数据的存储:HDFS 数据的计算:MapReduce 1.2 应用场景 ...
分类:Web程序   时间:2020-01-23 12:37:38    阅读次数:103
flume修改源码实现source文件名前后缀的更改
业务场景:需求:通过flume进行数据采集,将本地(windows服务器)不断产生的csv文件采集到hdfs上。问题:本地文件在生成的过程中,会出现文件名重复的现象。也就是说,在前一秒生成文件名为aaa.csv,该文件经过flume进行处理之后会进行文件名的更改,默认情况下文件名会更改为aaa.cs... ...
分类:Web程序   时间:2020-01-23 09:14:02    阅读次数:290
hadoop namenode的工作机制
hadoop 集群中有两种节点,一种是namenode,还有一种是datanode。 其中datanode主要负责数据的存储,namenode主要负责三个功能,分别是(1)管理元数据 (2)维护目录树 (3)响应客户请求 首先介绍下,元数据格式 hdfs在外界看来就是普通的文件系统,可以通过路径进行 ...
分类:其他好文   时间:2020-01-22 13:07:22    阅读次数:117
HDFS的API操作
配置HADOOP_HOME和配置Path环境变量环境变量 创建一个Maven工程 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version ...
分类:Windows程序   时间:2020-01-20 19:06:35    阅读次数:81
Hadoop配置lzo和lzop
在使用flume采集日志写入到hdfs时,用到了lzo压缩算法,这个算法将让保存的文件缩小为原文件的三分之一。由于此压缩算法不是hadoop默认的,需要另外安装,下面记录下,全文主要参考文末博文完成。 编译安装lzo和lzop 注意,有多少个节点,就安装多个少!注意,有多少个节点,就安装多个少!注意 ...
分类:其他好文   时间:2020-01-20 14:30:04    阅读次数:88
5040条   上一页 1 ... 41 42 43 44 45 ... 504 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!