码迷,mamicode.com
首页 >  
搜索关键字:大数据开发 Hadoop Spark    ( 19831个结果
hbase 的hdfs目录解析
Hbase在hdfs上的存储位置,根目录是由配置项hbase.rootdir决定,默认就是"/hbase" 其中hbase master 的webui 由参数hbase.master.info.port决定,一般配置为 60010 [dip@g3-test-36 ~]$ hadoop fs -ls ...
分类:其他好文   时间:2020-07-30 19:45:37    阅读次数:104
大数据学习(06)——Ozone介绍
前面几篇文章把Hadoop常用的模块都学习了,剩下一个新模块Ozone,截止到今天最新版本是0.5.0Beta,还没出正式版。好在官方网站有文档,还是中文版的。 什么是Ozone Ozone 是 Hadoop 的分布式对象存储系统,具有易扩展和冗余存储的特点。 Ozone 不仅能存储数十亿个不同大小 ...
分类:其他好文   时间:2020-07-30 01:46:54    阅读次数:117
Spark 数据处理相关代码
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.3</version> </dependency> <!-- https://mvnrepos ...
分类:其他好文   时间:2020-07-29 09:53:42    阅读次数:61
大数据学习5(基于yarn的高可用集群搭建)
NN-1 NN-2 DN ZK ZKFC JNN RS NM(和DN在一起) node0001 * * * node0002 * * * * * * node0003 * * * * * node0004 * * * * 1,修改配置文件 cd /opt/sxt/hadoop-2.6.5/etc/h ...
分类:其他好文   时间:2020-07-29 00:45:28    阅读次数:156
《hadoop 集群搭建、spark安装、Hbase安装、Hive安装、Kafka安装》
1 hadoop集群安装 https://blog.csdn.net/shshheyi/article/details/84893371 1.1 修改主机名 [root@localhost ~]# vim /etc/hosts # 三台机器都需要操作 192.168.28.131 master 19 ...
分类:其他好文   时间:2020-07-29 00:41:18    阅读次数:111
spark系列之基本概念
Spark的架构图 1、RDD(弹性分布式数据集) RDD是对象的分布式集合。 RDD以并行方式应用和记录数据转换 RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树,当RDD的一个分区丢失,可以根据祖先树重建该分区。 RDD有两组操作,转换(transformation)和行动(actio ...
分类:其他好文   时间:2020-07-28 22:37:30    阅读次数:72
Hadoop HA高可用搭建流程
一、HDFS-HA集群配置 1.环境准备 1. 修改IP 2. 修改主机名及主机名和IP地址的映射 3. 关闭防火墙 4. ssh免密登录 5. 安装JDK,配置环境变量等 2.规划集群 hadoop102 hadoop103 hadoop104 NameNode NameNode JournalN ...
分类:其他好文   时间:2020-07-28 22:19:09    阅读次数:77
spark中的透视函数pivot
透视函数其实就是我们excel中常用的数据透视表相似,先来看个例子。 以下是准备的数据源,数据是电商系统中用户的行为数据(浏览,收藏,加购,成交,评分等),score为统计次数。 对应的字段分别为 租户id,用户id,商品编码Id,行为事件代码,当日统计次数,统计日期。 现在我们要转换成目标的数据是 ...
分类:其他好文   时间:2020-07-28 17:17:13    阅读次数:131
Hive函数大全-完整版
Hive函数大全–完整版 现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapReduce的时间相当长,但是它太方便、 ...
分类:其他好文   时间:2020-07-28 14:21:17    阅读次数:191
BlockManager源码详解
一、简介 在每个节点(driver和executor)上运行的管理器,该接口提供用于在本地和远程将block放置和检索到各种存储(内存,磁盘和堆外)的接口。 二、源码 private[spark] class BlockManager( executorId: String, rpcEnv: Rpc ...
分类:其他好文   时间:2020-07-27 23:41:12    阅读次数:73
19831条   上一页 1 ... 38 39 40 41 42 ... 1984 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!