下面是hive基本练习,持续补充中。 简述Hive工作原理 hive是基于hadoop,可以管理hdfs上的数据的工具,它本质上是执行MapReduce程序,只是使用了类sql语句更加方便开发,hive驱动器会将类sql语句转换成MapReduce的task来执行,因此执行速度会比较慢。 hive的 ...
分类:
其他好文 时间:
2019-11-17 20:43:37
阅读次数:
82
大数据从入门到入土 语言基础:java(Java se,javaweb) Linux 基础:Linux(shell,高并发架构,lucene,solr) 框架学习:Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) ...
分类:
其他好文 时间:
2019-11-16 21:47:53
阅读次数:
107
MapReduce 执行过程分析 第一阶段map 1.map task读取HDFS文件。每个block,启动一个map task。 每个map task按照行读取一个block中的内容,对每一行执行map函数 2.map函数对输入的数据进行拆分split,得到一个数组,组成一个键值对<word, 1 ...
分类:
其他好文 时间:
2019-11-16 17:28:15
阅读次数:
78
首先虚拟机上已经安装好hive。 下面是连接hive需要的操作。 一、配置。 1.查找虚拟机的ip 输入 ifconfig 2.配置文件 (1)配置hadoop目录下的core-site.xml和hdfs-site.xml 在core-site.xml中添加下面配置: <property> <nam ...
分类:
数据库 时间:
2019-11-16 14:55:09
阅读次数:
118
一、简介 1、分布式文件系统钢结构 分布式文件系统由计算机集群中的多个节点构成,这些节点分为两类: 主节点(MasterNode)或者名称节点(NameNode) 从节点(Slave Node)或者数据节点(DataNode) 2、HDFS能够带来什么好处 兼容廉价的硬件设备 流数据读写 大数据集 ...
分类:
其他好文 时间:
2019-11-15 12:07:41
阅读次数:
209
查看kafka官网的userguide agent.sources = kafkaSource agent.channels = memoryChannel agent.sinks = hdfsSink agent.sources.kafkaSource.type = org.apache.flum ...
分类:
其他好文 时间:
2019-11-13 13:12:56
阅读次数:
101
1、hadoop-env.sh配置,2、hdfs-site.xml配置文件,3、core-site.xml配置文件,4、mapred-site.xml配置,5、yarn-site.xml配置,6、slaves配置(DataNode)
分类:
其他好文 时间:
2019-11-09 23:32:30
阅读次数:
135
RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,能横跨集群所有节点并行计算,是一种基于工作集的应用抽象。 RDD底层存储原理:其数据分布存储于多台机器上,事实上,每个RDD的数据都以Block的形式存储于多台机器上,每个Executor会启动一个Blo ...
分类:
其他好文 时间:
2019-11-09 19:19:31
阅读次数:
127
阿里文档: EMR里可以通过 Ranger组件来实现https://help.aliyun.com/document_detail/66410.html?spm=a2c4g.11186623.3.4.1a685b78iZGjgK 4.AWS S3迁移到阿里OSShttps://help.aliyun ...
分类:
其他好文 时间:
2019-11-09 19:19:18
阅读次数:
192
1、首先是jdk的路径问题 为了和以后出现的hadoop,spark出现 路径带有空格导致 调用失败的情况, 直接把 jdk的路径 剪切到 没有空格的目录下。 D:\>echo %JAVA_HOME% C:\Java\jdk1.8.0_202 到这里,在cmd下,能 看到 scala -versio ...