码迷,mamicode.com
首页 >  
搜索关键字:hdfs dfsadmin    ( 4996个结果
大数据学习——hive基本操作
1 建表 2 创建一个student.txt 添加数据 3 上传 hdfs dfs -put student.txt /user/hive/warehouse/student 4 select * from student; 5 通常不会通过put方式加载数据,而是通过load的方式添加数据 loa ...
分类:其他好文   时间:2019-01-15 22:03:19    阅读次数:225
hbase的基本介绍
1.hbase的简介:??HBASE是bigTable,(源代码是Java编写)的开源版本,是ApacheHadoop的数据库,是建立在hdfs之上,被设计用来提供高可靠性,高性能、列存储、可伸缩、多版本,的Nosql的分布式数据存储系统,实现对大型数据的实时,随机的读写请求。更是弥补了hive不能低延迟、以及行级别的增删改的缺点。??HBASE依赖于hdf
分类:其他好文   时间:2019-01-15 12:06:06    阅读次数:752
HDFS的Java客户端编写
总结: 之前在教材上看hdfs的Java客户端编写,只有关键代码,呵呵……。闲话不说,上正文。 1. Hadoop 的Java客户端编写建议在linux系统上开发 2. 可以使用eclipse,idea 等IDE工具,目前比较流行的是idea 3. 新建项目之后需要添加很多jar包,win,linu ...
分类:编程语言   时间:2019-01-14 14:30:41    阅读次数:248
NN元数据工作机制
HDFS的实现思路:1.HDFS通过分布式集群来存储文件,为客户端提供便捷的访问方式2.文件存储到HDFS集群去的时候,被切分为block3.HDFS存放在若干datanode节点 上4.HDFS文件系统与真实的block之间有映射关系,由于NameNode管理5.每个block在集群中会存储多个副 ...
分类:其他好文   时间:2019-01-14 10:55:47    阅读次数:204
hive的基础理论
1.hive的介绍  什么是hive:Hive是基于hadoop的一个数据仓库工具,实质就是一款基于hdfs的MapReduce计算框架,对存储在HDFS中的数据进行分析和管理。  hive的工作方式:把存放在hive中的数据都抽象成一张二维表格,提供了一个类似于sql语句的操作方式,这些sql语句最终被hive的底层翻译成为MapReduce程序,最终在h
分类:其他好文   时间:2019-01-13 21:40:37    阅读次数:208
MapReduce阶段源码分析以及shuffle过程详解
MapReducer工作流程图:1.MapReduce阶段源码分析1)客户端提交源码分析解释:  -判断是否打印日志  -判断是否使用新的API,检查连接  -在检查连接时,检查输入输出路径,计算切片,将jar、配置文件复制到HDFS  -计算切片时,计算最小切片数(默认为1,可自定义)和最大切片数(默认是long的最
分类:其他好文   时间:2019-01-13 16:06:34    阅读次数:194
MapReduce的典型编程场景3
1.自定义InputFormat–数据分类输出 需求:小文件的合并 分析:   -在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS   -在业务处理之前,在HDFS上使用MapReduce程序对小文件进行合并   -在MapReduce处理时,可采用CombineFileIn
分类:其他好文   时间:2019-01-13 14:23:38    阅读次数:167
基于Storm构建分布式实时处理应用初探
Storm对比Hadoop,前者更擅长的是实时流式数据处理,后者更擅长的是基于HDFS,通过MapReduce方式的离线数据分析计算。对于Hadoop,本身不擅长实时的数据分析处理。两者的共同点都是分布式架构,而且都类似有主/从关系的概念。 本文不会具体阐述Storm集群和Zookeeper集群如何 ...
分类:其他好文   时间:2019-01-13 10:21:39    阅读次数:236
HDFS ha 格式化报错:a shared edits dir must not be specified if HA is not enabled.
错误内容: Formatting using clusterid: CID-19921335-620f-4e72-a056-899702613a6b2019-01-12 07:28:46,986 INFO namenode.FSEditLog: Edit logging is async:true2 ...
分类:其他好文   时间:2019-01-13 01:54:16    阅读次数:2516
Flume部署总结
拦截器 一、需求的产生 因生产需求,要将kafka中的数据上传至hdfs,所以计划部署flume来完成。 ? 1.需要将kafkaSource中的json数据解析成需要的数据格式,落地至hdfs,供hive加载,所以此处需要自定义拦截器,对event.body进行逻辑解析。 ? 2.同时因为不同ka ...
分类:Web程序   时间:2019-01-12 12:04:42    阅读次数:217
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!