搜索关键字：大数据开发 Hadoop Spark，搜索到19831个结果！码迷,mamicode.com！

spark2.0 连接mysql8.0数据库操作表数据

package operationMysql import config.conf.{sc, spark_session} import org.apache.spark.sql.DataFrame object readingMysqlOperation { def main(args: Arra ...

分类：数据库时间：2020-04-03 00:21:17 阅读次数：126

Presto 安装部署

1.版本选型 hadoop 3.1.3 hive 3.1.2 presto 0.233.1 2.Prsto 简介详细参考：https://prestodb.github.io/docs/current/connector.html 2.1 Presto 优势多数据源，支持SQL，自定义扩展Con ...

分类：其他好文时间：2020-04-03 00:15:16 阅读次数：177

在idea上运行spark的wordcount

1.环境hadoop-2.6.0 spak2.1.1 scala-sdk-2.11.12 2.maven项目创建 3.pom 4.阿里云settings配置 <?xml version="1.0"?> <settings xsi:schemaLocation="http://maven.apache ...

分类：其他好文时间：2020-04-02 19:37:02 阅读次数：213

hadoop-MapReduce框架原理之Shuffle机制

1.Shuffle机制 1.1 什么是shuffle机制 1.1.1 在hadoop中数据从map阶段传递给reduce阶段的过程就叫shuffle，shuffle机制是整个MapReduce框架中最核心的部分； 1.1.2 shuffle翻译成中文的意思为：洗牌，发牌（核心机制：数据分区，排序，缓 ...

分类：其他好文时间：2020-04-02 18:08:23 阅读次数：115

hbase报错 ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

hbase报错 ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing ...

分类：Web程序时间：2020-04-02 17:59:54 阅读次数：82

SparkSQl简单使用

一：什么是SparkSQL？（一）SparkSQL简介 Spark SQL是Spark的一个模块，用于处理结构化的数据，它提供了一个数据抽象DataFrame（最核心的编程抽象就是DataFrame），并且SparkSQL作为分布式SQL查询引擎。Spark SQL就是将SQL转换成一个任务，提交 ...

分类：数据库时间：2020-04-02 15:36:01 阅读次数：88

1、Hadoop环境搭建

Hadoop有三种模式：本地模式、伪分布模式、集群模式 1、本地模式 1、在/opt下面创建一个software文件 2、将文件hadoop-2.6.5.tar.gz拷贝到 /opt/software下面 3、在usr下创建hadoop把hadoop-2.6.5.tar.gz 复制到 /usr/ha ...

分类：其他好文时间：2020-04-02 11:42:47 阅读次数：75

hadoop hbase 命令集合

./bin/hdfs zkfc -formatZK 初始安装时初始化zk，在Zookeeper中创建了路径/hadoop-ha/hacluster ./bin/hdfs haadmin -getServiceState master1 查看主节点的状态，是active还是standby ./bin/ ...

分类：其他好文时间：2020-04-01 19:33:47 阅读次数：55

MapReduce深入

hadoop中map和reduce都是进程（spark中是线程），map和reduce可以部署在同一个机器上也可以部署在不同机器上。输入数据是hdfs的block，通过一个map函数把它转化为一个个键值对，并同时将这些键值对写入内存缓存区（100M），内存缓存区的数据每满80M就会将这80M数据写 ...

分类：其他好文时间：2020-04-01 00:56:20 阅读次数：58

Linux下hadoop和spark的基础环境配置准备

我使用了4台虚拟机centos7来搭建环境， 2个主结点（一般是一个，但为了体验zookeeper，万一其中一个master挂掉呢，另外一个会自动启动接管）， 2个从结点注意：下面的配置主要以主节点为例进行说明第一步：同步四台机器的时钟 sudo yum install ntpdate，确保已安 ...

分类：系统相关时间：2020-03-31 22:59:21 阅读次数：97

共19831条上一页 1 ... 98 99 100 101 102 ... 1984 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)