HDFS实验 学习了中国MOOC上的《大数据技术原理与应用》,然后找到实验开始学习。我认为这门课被认为是入门的专业课是可以的,很多地方都只是一个简单的描述一下体系结构,工作方式等等,这就足够了,多了也听不懂。学习完了这门课,就是深似海的感觉,对讲的内容总是一知半解,可能自己理论确实不太行趴++ 但是 ...
分类:
其他好文 时间:
2020-07-02 21:59:02
阅读次数:
66
ODS层数据不做任何处理,完全仿照业务数据库中的表字段,一模一样的创建ODS层对应表。 8张表建表语句: ①用sqoop把导入到HDFS的时候,加了参数--fields-terminated-by "\t",因此这里ODS层建表的时候也注意相同的分隔符。 ②不管是全量导入还是其他形式,都使用分区表, ...
分类:
其他好文 时间:
2020-07-01 23:46:38
阅读次数:
91
Kafka在实际的开发之中的确可以处理千万级别的数据,但是现在有一个问题,这些数据从哪里来呢?Kafka产生的初衷是进行数据的收集以及合理的消费,但是这些实际之中的数据我们应该如何获取,我们该用什么样的方式来获取,而且最关键的是,如果现在是一个已经成型的系统(SSH、SSM、Spring),那么这个 ...
分类:
Web程序 时间:
2020-07-01 12:37:05
阅读次数:
61
一、小文件概述 小文件通常指文件大小要比HDFS块大小还要小很多的文件(在hadoop1.x版本的时候可以通过dfs.blocksize来设置,默认块大小为64M;在hadoop2.x版本的时候,则需要通过dfs.block.size设置,且默认大小为128M) 如果存在大量小文件,则会对整个存储系 ...
分类:
其他好文 时间:
2020-06-30 22:57:46
阅读次数:
191
Hadoop的广义与狭义之分 狭义的Hadoop:指的是一个框架,Hadoop是由三部分组成:HDFS:分布式文件系统--》存储;MapReduce:分布式离线计算框架--》计算;Yarn:资源调度框架 广义的Hadoop:广义的Hadoop不仅仅包含Hadoop框架,除了Hadoop框架之外的一些 ...
分类:
其他好文 时间:
2020-06-30 22:14:42
阅读次数:
67
一、概述 Hive是什么? Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。 最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。它用 ...
分类:
其他好文 时间:
2020-06-30 17:16:56
阅读次数:
54
1.Error initializing SparkContext. 20/06/29 05:52:43 INFO yarn.Client: Deleted staging directory hdfs://master:9000/user/hadoop/.sparkStaging/applicat ...
分类:
其他好文 时间:
2020-06-29 15:02:48
阅读次数:
96
大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国、美国以及欧盟等都已将大数据列入国家发展战略,微软、谷歌、百度以及亚马逊等大型企业也将大数据技术列为未来发展的关键筹码,可见,大数据技术在当今乃至未来的重要性! 大数 ...
分类:
其他好文 时间:
2020-06-29 11:48:57
阅读次数:
47
一、概述 1.Flume是Apache提供的开源的、分布式的、可靠的日志收集系统 2.能够有效的收集、聚合、传输大量的日志数据 3.flume有2个版本:flume-og(flume09x)和flume-ng(flume1.x),flume-og和flume-ng不兼容 二、基本概念 1.Event ...
分类:
Web程序 时间:
2020-06-28 15:19:31
阅读次数:
62
一、Data Sinks 在使用 Flink 进行数据处理时,数据经 Data Source 流入,然后通过系列 Transformations 的转化,最终可以通过 Sink 将计算结果进行输出,Flink Data Sinks 就是用于定义数据流最终的输出位置。Flink 提供了几个较为简单的 ...
分类:
其他好文 时间:
2020-06-28 09:50:59
阅读次数:
76