码迷,mamicode.com
首页 >  
搜索关键字:spark 大数据 hadoop yarn    ( 30860个结果
Hbase2.0的Java API
以表的操作和单条记录的增删改查为基础。 批量操作,需要进行进一步封装。 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.hadoop.hbase.clie ...
分类:编程语言   时间:2021-03-15 11:32:26    阅读次数:0
02 Spark架构与运行流程
1. 为什么要引入Yarn和Spark。 从开源角度看,YARN的提出,从一定程度上弱化了多计算框架的优劣之争。YARN是在Hadoop MapReduce基础上演化而来的,在MapReduce时代,很多人批评MapReduce不适合迭代计算和流失计算,于是出现了Spark和Storm等计算框架,而 ...
分类:其他好文   时间:2021-03-15 11:29:44    阅读次数:0
ApacheCN 数据科学译文集 20210313 更新
新增了五个教程: Python 和 Jupyter 机器学习入门 零、前言 一、Jupyter 基础知识 二、数据清理和高级机器学习 三、Web 爬取和交互式可视化 Python 数据科学和机器学习实践指南 零、前言 一、入门 二、统计和概率回顾和 Python 实践 三、Matplotlib 和高 ...
分类:Web程序   时间:2021-03-15 11:11:19    阅读次数:0
01 Spark架构与运行流程
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于BigTable,即分布式NoSQL列数据库,外加Zo ...
分类:其他好文   时间:2021-03-15 10:45:14    阅读次数:0
01 Spark架构与运行流程
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 答: Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于BigTabl ...
分类:其他好文   时间:2021-03-15 10:30:53    阅读次数:0
spark架构与运行流程
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和MapReduce,hadoo ...
分类:其他好文   时间:2021-03-15 10:30:41    阅读次数:0
spark-sql-04-on_hive
设置metastore 机器: ke01、ke02、ke03、ke04 ke03 为元数据库 ke01、ke02、ke04 连接到元数据库 、 hive-metastore搭建 ke03: <configuration> <property> <name>hive.metastore.warehou ...
分类:数据库   时间:2021-03-12 13:42:56    阅读次数:0
SYZOJ 搭建 Note
SYZOJ 搭建 Note 开了一台全新的 Aliyun,Ubuntu 20.04 基本按照官方文档走一遍就 OK 但是中间有几个地方卡住了 尝试用 npm install 失败了,后来换成 yarn 就成功了,原因未知 systemctl 始终 fail,所以我直接开了三个 screen,把三个 ...
分类:其他好文   时间:2021-03-11 20:53:40    阅读次数:0
Spark中join的类型
Spark的五种JOIN策略解析 JOIN操作是非常常见的数据处理操作,Spark作为一个统一的大数据处理引擎,提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略,希望对你有所帮助。本文主要包括以下内容: 影响JOIN操作的因素 Spark中JOIN执行的5种策略 Spa ...
分类:其他好文   时间:2021-03-10 13:42:57    阅读次数:0
ForkJoinPool线程池
介绍 分而治之是一个有效的处理大数据的方法,著名的MapReduce就是采用这种分而治之的思路。简单的说,如果要处理1000个数据,但是我们不具备处理1000个数据的能力,只可以处理10个数据。我们可以将这个任务分成100份,每份处理10个,并将最后的结果进行合成,形成1000个数据的处理结果。 把 ...
分类:编程语言   时间:2021-03-10 13:02:18    阅读次数:0
30860条   上一页 1 ... 21 22 23 24 25 ... 3086 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!