码迷,mamicode.com
首页 > 编程语言 > 详细

大数据学习——JAVA采集程序

时间:2019-01-03 22:38:39      阅读:264      评论:0      收藏:0      [点我收藏+]

标签:java   数据   接口   hdf   磁盘空间   info   外部   bubuko   文件上传   

1 需求

从外部购买数据,数据提供方会实时将数据推送到6台FTP服务器上,我方部署6台接口采集机来对接采集数据,并上传到HDFS中

 

提供商在FTP上生成数据的规则是以小时为单位建立文件夹(2016-03-11-10),每分钟生成一个文件(00.dat,01.data,02.dat,........)

 

提供方不提供数据备份,推送到FTP服务器的数据如果丢失,不再重新提供,且FTP服务器磁盘空间有限,最多存储最近10小时内的数据

 

由于每一个文件比较小,只有150M左右,因此,我方在上传到HDFS过程中,需要将15分钟时段的数据合并成一个文件上传到HDFS

 

为了区分数据丢失的责任,我方在下载数据时最好进行校验

2 设计分析

技术分享图片

 

大数据学习——JAVA采集程序

标签:java   数据   接口   hdf   磁盘空间   info   外部   bubuko   文件上传   

原文地址:https://www.cnblogs.com/feifeicui/p/10217103.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!