1、关于虚拟机的复制 新建一台虚拟机,系统为CentOS7,再克隆两台,组成一个三台机器的小集群。正常情况下一般需要五台机器(一个Name节点,一个SecondName节点,三个Data节点。) 此外,为了使网络生效,需要注意以下几点: 1> 编辑网络配置文件 先前的版本需要删除mac地址行,注意不 ...
分类:
其他好文 时间:
2016-11-26 07:43:33
阅读次数:
265
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需 要的内 ...
分类:
数据库 时间:
2016-11-24 06:38:33
阅读次数:
250
hdfs(hadoop分布式系统)设计需要考虑的问题?第一个就是数据是如何存储吗(数据的物理存储)每台机器上都有个datanode节点。这个节点是用来存储数据的。hdfs对一个大的文件进行分块,每个版本对每一个分块大小可能不尽相同。Hadoop1版本默认是64M,假设80M东西,就被分成64M..
分类:
其他好文 时间:
2016-11-14 16:13:15
阅读次数:
126
首先,要说明的一点的是,我不想重复发明轮子。如果想要搭建Hadoop环境,网上有很多详细的步骤和命令代码,我不想再重复记录。
其次,我要说的是我也是新手,对于Hadoop也不是很熟悉。但是就是想实际搭...
分类:
其他好文 时间:
2016-11-08 17:34:16
阅读次数:
307
以前谈及大数据,总会第一想到的是Hadoop,分布式,然后没了。而真正解除大数据的时候,发现这是一个很大的体系,大数据只是个概念,而真正的核心在于数据的操作上,从数据的收集,处理,存储,计算上来发现数据中潜藏的价值。 大数据,机器学习,深度学习,人工智能,这几个比较火热的话题,其实中间存在着千丝万缕 ...
分类:
其他好文 时间:
2016-11-05 14:40:38
阅读次数:
293
Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是google File Sy ...
分类:
其他好文 时间:
2016-11-01 14:26:16
阅读次数:
160
HDFS(Hadoop Distributed File System ) HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文 ...
分类:
其他好文 时间:
2016-10-30 19:43:43
阅读次数:
314
简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。 HDFS特点: 1、保存多个副本,且提供容错机制,副本丢失或宕机 ...
分类:
其他好文 时间:
2016-10-25 13:48:53
阅读次数:
400
一、部分概念 二、简单搭建Hadoop分布式集群(分布式指的是Hadoop,集群指在多台1节点运行一个Hadoop系统) 1. 做好规划: 1> 需要哪些服务要先想好,因为配置文件后会分发到其他节点,避免重复修改配置 比如:我将要运行的服务有hdfs,yarn,mapreduce,secondary ...
分类:
其他好文 时间:
2016-10-21 19:08:38
阅读次数:
258
普通存储: DAS:直连式存储。 NAS:连接式存储。 SAN:存储网络。 大文件分布存储: GFS:Google File System(Google文件系统). HDFS: Hadoop Distributed File System(Hadoop分布式文件系统). 小文件分布存储: ADFS: ...
分类:
其他好文 时间:
2016-10-08 09:36:23
阅读次数:
187