1 需求 从外部购买数据,数据提供方会实时将数据推送到6台FTP服务器上,我方部署6台接口采集机来对接采集数据,并上传到HDFS中 提供商在FTP上生成数据的规则是以小时为单位建立文件夹(2016-03-11-10),每分钟生成一个文件(00.dat,01.data,02.dat,........) ...
分类:
编程语言 时间:
2019-01-03 22:38:39
阅读次数:
264
点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 1需求说明 点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 2需求分析 一般上传文件都是在凌晨24点操作,由于很多种类的业务数据都要在晚上进行传输,为了减轻服务器的压力 ...
分类:
Web程序 时间:
2019-01-03 22:32:46
阅读次数:
308
package cn.itcast.hdfs; import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.j... ...
分类:
其他好文 时间:
2019-01-03 21:45:46
阅读次数:
226
package cn.itcast.bigdata.hdfs.diceng; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.IOUtils... ...
分类:
其他好文 时间:
2019-01-03 21:40:42
阅读次数:
208
hadoop的伪分布式安装流程如下所示: 其中core-site.xml和hdfs-site.xml是两个很重要的配置文件。 core-site.xml hadoop.tmp.dir用来存放hadoop运行过程中临时文件的目录,目录指定为/usr/local/hadoop/tmp,如果不设置这个目录 ...
分类:
其他好文 时间:
2019-01-03 20:42:36
阅读次数:
300
hadoopCommon:包括Hadoop常用的工具类,由原来的Hadoopcore部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API。HadoopDistributedFileSystem(HDFS?):分布式文
分类:
其他好文 时间:
2019-01-03 12:05:46
阅读次数:
142
原文地址 https://blog.csdn.net/zhruixuan/article/details/85549618 Hadoop的核心是HDFS,YARN,MapReduce。今天先来认识一下MapReduce。 MapReduce是什么 MapReduce是Hadoop中的一种处理大规模数 ...
分类:
其他好文 时间:
2019-01-02 23:23:01
阅读次数:
186
hbase是一个构建在hdfs上的分布式列存储系统;hbase是apachehadoop生态系统中的重要一员,主要用于海量结构化数据存储从逻辑上讲,hbase将数据按照表、行和列进行存储hbase表特点: 1.大:一个表可以有数十亿行,上百万列; 2.无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列; 3.面向列:面向列(族)的存储
分类:
其他好文 时间:
2019-01-02 19:04:13
阅读次数:
179
常用的端口配置 2.1 HDFS端口 参数 描述 默认 配置文件 例子值 fs.default.name namenode namenode RPC交互端口 8020 core-site.xml hdfs://master:8020/ dfs.http.address NameNode web管理端 ...
分类:
其他好文 时间:
2019-01-02 12:27:28
阅读次数:
277