Hadoop 是什么 Hadoop 是一个开源的大数据框架同时也是一个分布式计算的解决方案。Hadoop = HDFS (分布式文件系统)+MapReduce(分布式计算) HDFS HDFS 概念 数据块 NameNode DataNode 数据块: 数据块是一个抽象的块,而不是整个文件。默认大小 ...
分类:
其他好文 时间:
2019-08-25 12:00:12
阅读次数:
120
一.分布式文件系统: 是指文件系统管理的物理存储资源不一定直接是连接在本地节点上,而是通过计算机网络与节点相连. 分布式文件系统的设计基与C/S架构(客户端/服务器) 常见的分布式文件系统:Ceph、(红帽)Hadoop、FastDFS(国产) 二.Ceph分布式文件系统 特点:具有高扩展、高可用、 ...
分类:
其他好文 时间:
2019-08-24 22:50:33
阅读次数:
111
GlusterFS简介: 互联网四大开源分布式文件系统分别是:MooseFS、CEPH、Lustre、GusterFS. GluterFS最早由Gluster公司开发,其目的是开发一个能为客户提供全局命名空间、分布式前端及高达数百PB级别扩展性的分布式文件系统。 相比其他分布式文件系统,Gluste ...
分类:
其他好文 时间:
2019-08-23 00:01:14
阅读次数:
280
第七章 推荐系统实例 7.1 外围架构 数据收集和存储 需要实时存取的数据存储在数据库和缓存中,而大规模的非实时地存取数据存储在分布式文件系统中(HDFS)中。 7.2 推荐系统架构 用户和物品的联系如下所示: 如果认为用户喜欢的物品也是一种用 户特征,或者和用户兴趣相似的其他用户也是一种用户特征, ...
分类:
其他好文 时间:
2019-08-22 13:23:02
阅读次数:
115
为什么要有Hadoop? 从计算机诞生到现今,积累了海量的数据,这些海量的数据有结构化、半结构化、非 结构的数据,并且这些海量的数据存储和检索就成为了一大问题。 我们都知道大数据技术难题在于一个数据复杂性、数据量、大规模的数据计算。 Hadoop就是为了解决这些问题而出现的。 Hadoop的诞生 D ...
分类:
其他好文 时间:
2019-08-20 01:15:59
阅读次数:
113
下面我们来学习Windows Server 2008文件服务器,文件服务器对于企业是相当重要的,所有的资料都保存在文件服务器上面,对于整个企业来说数据算得上是最重要的东西,下面介绍一下文件服务器的搭建以及管理,包括共享权限,以及多次共享一个文件夹,还有默认共享及隐藏共享,还有分布式文件系统搭建,怎样 ...
是什么? FastDFS是一个轻量级分布式文件系统。 能干嘛? 对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等。 相关概念 一、网络拓扑图 对上图的基本了解,client是客户端,tracker和storage是FastDFS系统的俩个角色。 二、详细了解tracke ...
分类:
其他好文 时间:
2019-08-16 17:04:49
阅读次数:
90
Hadoop三大组件: 分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上(分布式存储) 分布式运算编程框架:MapReduce——实现多台机器的分布式并行运算。(分布式运算) 分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源 Hive ...
分类:
其他好文 时间:
2019-08-14 14:26:48
阅读次数:
115
1. hadoop中HDFS的NameNode原理 1.1. 组成 包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等。 1.2. HDFS架构原理 比如现在要上传一个1T的大文件,提交给HDFS的 (用以存放文件目录树,权限设置,副本数设置等 ...
分类:
其他好文 时间:
2019-08-13 17:25:04
阅读次数:
89
首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为三 ...
分类:
其他好文 时间:
2019-08-13 00:53:23
阅读次数:
203