码迷,mamicode.com
首页 >  
搜索关键字:hadoop基础    ( 126个结果
第一章:Hadoop基础介绍
Hadoop的整体框架 Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成。 HBase是一个开源的,基于列存储模型的分布式数据库 HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序 MapR ...
分类:其他好文   时间:2020-07-06 15:47:59    阅读次数:67
Hadoop基础---shuffle机制(进一步理解Hadoop机制)
一:MapReduce框架 (结合YARN框架) 补充:MapReduce框架知道我们写的map-reduce程序的运行逻辑。我们写的map-reduce中并没有管理层的任务运行分配逻辑,该逻辑被封装在MapReduce框架里面,被封装为MRAppMaster类,该类用于管理整个map-reduce ...
分类:其他好文   时间:2020-02-24 18:50:55    阅读次数:71
Hadoop基础---MapReduce对数据进行排序
承接上文:Hadoop基础 流量求和MapReduce程序及自定义数据类型 一:实验数据 对上一篇文章中的数据进行排序处理: 13480253104 180 200 380 13502468823 102 7335 7437 13560439658 5892 400 6292 13600217502 ...
分类:编程语言   时间:2020-02-23 20:01:26    阅读次数:85
hadoop-2.10.0安装hive-2.3.6
公司建立数仓,hive是必不可少的,hive是建立在hadoop基础上的数据库,前面已经搭建起了hadoop高可用,要学习hive,先从搭建开始,下面梳理一下hive搭建过程 1.下载hive安装包 ,下载地址:https://hive.apache.org/downloads.html 找到自己h ...
分类:其他好文   时间:2020-02-08 00:22:59    阅读次数:102
hadoop之hadoop基础介绍
hadoop是什么? 是一个分布式基础架构,主要解决海量数据存储以及数据分析计算问题。 hadoop三大发行版本? Apache、clourdera、Hortonworks hadoop优势? 高可靠、高扩展、高效、高容错 hadoop1.x和2.x的区别? HDFS(hadoop distribu ...
分类:其他好文   时间:2020-01-30 14:29:07    阅读次数:79
大数据入门第一课 Hadoop基础知识与电商网站日志数据分析
本课程从Hadoop核心技术入手,以电商项目为依托,带领你从0基础开始上手,逐步掌握大数据核心技术(如:HDFS、YARN、MapReduce以及Hive),并使用这些技术进行实战,最终完成电商行为日志分析项目,让你轻松入门大数据! ...
分类:Web程序   时间:2020-01-10 01:08:26    阅读次数:133
Linux虚拟机上Hadoop基础环境搭建
1 主要步骤 配置网络 修改主机名 关闭防火墙 关闭SELinux 安装jdk 增加hadoop用户 配置ssh信任 配置hadoop 集群部署规划 5台服务器, 一个主节点:nn1.hadoop, master (HA) 一个从节点:nn2.hadoop,slave 三个工作节点: s1.hado ...
分类:系统相关   时间:2019-12-09 01:34:10    阅读次数:243
Hadoop——基础练习题
一、Wordcount练习 1.需求:通过hadoop分析文件中单词总数 1.要被分析的文件内容如图所示,每个单词之间以空格分开 2.实现的效果如图 2.代码实现 1.解决数据倾斜问题 考虑到在机器运行过程中 Reduce阶段每个相同的Key会由一个ReduceTask来处理,而java共有十六万个 ...
分类:其他好文   时间:2019-08-29 20:27:19    阅读次数:119
hadoop基础
hadoop dfs -ls file:/// (最后一个/表示本地文件系统的根目录) HDFS的弱点: 实施访问数据弱 大量小文件 多用户写入 配置hdfs块的大小 hsfs-site.xml 冗余性 <property> <name>dfs.replication</name> <value>3 ...
分类:其他好文   时间:2019-08-16 01:10:14    阅读次数:116
大数据Hadoop基础入门到精通
1.hadoop前世今生: 1) 搜索引擎:网络爬虫+索引服务器(生成索引+检索) 2) Doung Cutting 3) Nutch a.分布式存储 b.分布式计算 4)GFS论文 doung cutting写了hdfs 2.hadoop概述 hadoop common:提供网络通信 hadoop ...
分类:其他好文   时间:2019-08-16 00:34:16    阅读次数:122
126条   上一页 1 2 3 4 5 ... 13 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!