搜索关键字：大数据开发 Hadoop Spark，搜索到19831个结果！码迷,mamicode.com！

spark工作原理

1、分布式 2、基于内存 3、迭代式计算每一批节点上的每一批数据就是一个RDD RDD是spark的核心抽象 1、RDD是Spark提供的核心抽象，全称为Resillient Distributed Dataset，即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的 ...

分类：其他好文时间：2020-05-03 20:41:36 阅读次数：61

从源码看Spark读取Hive表数据小文件和分块的问题

前言有同事问到，Spark读取一张Hive表的数据Task有一万多个，看了Hive表分区下都是3MB~4MB的小文件，每个Task只处理这么小的文件，实在浪费资源浪费时间。而我们都知道Spark的Task数由partitions决定，所以他想通过repartition(num)的方式来改变分区数， ...

分类：其他好文时间：2020-05-03 12:43:20 阅读次数：54

大数据之hadoop深入学习

一、简介 Hadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。解决的问题：（1）海量数据的存储 [HDFS] （2）海量数据的分析 [MapReduce] （3）资源管理调度 [YARN] 二、hadoop架构在其核心，Hadoop ...

分类：其他好文时间：2020-05-03 10:26:41 阅读次数：66

Centos7下搭建Hadoop2.6完全分布式环境

一、下载Hadoop包和JDK1、下载Hadoop地址：https://archive.apache.org/dist/hadoop/common/hadoop-2.6.4/hadoop-2.6.4.tar.gz2、下载jdk：链接：https://pan.baidu.com/s/1lbu7eBEtgjeGIi2bWthLnA提取码：0j0j二、准备虚拟机1、在VMware中创建新的虚拟机（Cen

分类：其他好文时间：2020-05-03 01:08:47 阅读次数：68

spark系列-2、Spark 核心数据结构：弹性分布式数据集 RDD

一、RDD(弹性分布式数据集) RDD 是 Spark 最核心的数据结构，RDD（Resilient Distributed Dataset）全称为弹性分布式数据集，是 Spark 对数据的核心抽象，也是最关键的抽象，它实质上是一组分布式的 JVM 不可变对象集合，不可变决定了它是只读的，所以 RD ...

分类：其他好文时间：2020-05-02 14:51:21 阅读次数：56

隐式装换

1 package com.ds 2 3 import org.apache.spark.sql.{Dataset, SparkSession} 4 5 object DataSet { 6 7 def main(args: Array[String]): Unit = { 8 val spark: ...

分类：其他好文时间：2020-05-02 12:10:05 阅读次数：46

spark_sql_DataFromMysql_InferringSchema_SparkSqlSchema_SparkSqlToMysql_SparkStreaming_Flume_Poll

1 package com.spark_sql 2 3 import java.util.Properties 4 import org.apache.spark.sql.{DataFrame, SparkSession} 5 6 object DataFromMysql { 7 def main( ...

分类：数据库时间：2020-05-02 11:31:58 阅读次数：63

Spark Streaming

流计算概述流数据是指在时间分布上和数量上无线的一系列动态数据集合。数据记录是流数据的最小组成单元。流数据特征数据快速持续到达，无穷无尽数据来源众多，格式复杂数据量大，不关心存储注重数据的整体价值，不过分关注个别数据数据顺序颠倒或者不完整流计算流数据被处理后，一部分进入数据库成为静态 ...

分类：其他好文时间：2020-05-01 17:08:46 阅读次数：96

Hive 基础知识——01

Hive架构架构原理： 1.4.1 查询语言由于 SQL 被广泛的应用在数据仓库中，因此，专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。 1.4.2 数据存储位置 Hive 是建立在 Hadoop 之上的，所有 H ...

分类：其他好文时间：2020-05-01 16:26:49 阅读次数：51

Hbase API 创建表错误记录 for Docker 容器部署集群

HbaseAPI创建表错误记录Demo方法：importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.hadoop.hbase.HTableDe

分类：Windows程序时间：2020-04-30 17:09:29 阅读次数：104

共19831条上一页 1 ... 84 85 86 87 88 ... 1984 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)