1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS的功能:元数据、检查点、DataNode功能 HDFS的工作原理: 数据存取 - HDFS架构: Master / Slave(主从结构) - 节点可以理解为物理机器 主节点,只有一个: Namen ...
分类:
其他好文 时间:
2019-06-05 19:42:39
阅读次数:
70
利用Shell命令与HDFS进行交互 以”./bin/dfs dfs”开头的Shell命令方式 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 在HDFS的根目录下创建一个名称为input的目录 删除HDFS根目录中的“input ...
分类:
其他好文 时间:
2019-06-05 00:21:43
阅读次数:
100
Windows|Eclipse 运行HDFS程序之后,报:org.apache.Hadoop.security.AccessControlException: Permission denied: user=sunqw, access=WRITE, inode="":hadoop:supergrou ...
分类:
数据库 时间:
2019-06-04 22:08:02
阅读次数:
119
一、目录操作 1.开启Hadoop服务 2.在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 3.在用户目录下创建一个input目录 4.在HDFS的根目录下创建一个名称为input的目录 5.删除HDFS根目录中的“input”目录 二、文件操作 1.使用vim编辑器,在本地Li ...
分类:
其他好文 时间:
2019-06-04 09:29:03
阅读次数:
152
一:Kafka概述 离线部分: Hadoop->离线计算(hdfs / mapreduce) yarn zookeeper->分布式协调(动物管理员) hive->数据仓库(离线计算 / sql)easy coding flume->数据采集 sqoop->数据迁移mysql->hdfs/hive ...
分类:
其他好文 时间:
2019-06-04 09:20:50
阅读次数:
124
1.阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS功能:是Hadoop项目的核心子项目。是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上 pc server。 具有以下的功能:(1)高容错性 : ...
分类:
其他好文 时间:
2019-06-03 17:08:11
阅读次数:
103
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据 ...
分类:
其他好文 时间:
2019-06-02 22:55:47
阅读次数:
138
1.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 在HDFS的根目录下创建一个名称为input的目录 删除HDFS根目录中的“input”目录 2.文件操作 使用vim编辑器,在本地Linux文件系统的“/home/hadoop/” ...
分类:
其他好文 时间:
2019-05-31 21:23:34
阅读次数:
132
一、hive在执行sql时会以mapreduce的方式对数据进行接入和处理,其主要包含以下几个阶段:1.hive首先根据sql语句中的表从hdfs文件中获取数据,对数据文件进行split操作,使其可以一行一行将所需数据读入内存;2.map函数将内存中的数据按照key值进行映射,形成一行一行的key-value值,比如用户表中的性别字段,内存中map处理后的记录如下:3.在实际应用中会有多台机器参与
分类:
数据库 时间:
2019-05-31 18:05:41
阅读次数:
210
看到10、hdfs的javaAPI操作, 13分19秒 具体代码如下: ...
分类:
编程语言 时间:
2019-05-31 00:46:48
阅读次数:
126