搜索关键字：spark hadoop，搜索到19685个结果！码迷,mamicode.com！

大数据框架exactly-once底层实现原理，看这篇文章就够了

一、大数据框架三种语义???? 在分布式系统中，如kafka、spark、flink等构成系统的任何节点都是被定义为可以彼此独立失败的。比如在 Kafka 中，broker 可能会 crash，在 producer 推送数据至 topic 的过程中也可能会遇到网络问题。根据 producer 处理此 ...

分类：其他好文时间：2021-04-09 13:27:18 阅读次数：0

RDD练习：词频统计

一、词频统计： 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() lines=sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt") words = lines.flatMa ...

分类：其他好文时间：2021-04-06 15:08:22 阅读次数：0

PySpark第一篇.PySpark简介

1.Spark概述 Apache Spark是一个闪电般快速的实时处理框架。它进行内存计算以实时分析数据。由于 Apache Hadoop MapReduce 仅执行批处理并且缺乏实时处理功能，因此它开始出现。因此，引入了Apache Spark，因为它可以实时执行流处理，也可以处理批处理。除了实 ...

分类：其他好文时间：2021-04-06 15:01:09 阅读次数：0

spark中的持久化(cache()、persist()、checkpoint())

分类：系统相关时间：2021-04-06 14:53:55 阅读次数：0

Hadoop序列化

2.1 序列化概述 1）什么是序列化序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。 2）为什么要序列化一般来说，“活的”对象只生存在内存里，关机断电 ...

分类：其他好文时间：2021-04-06 14:52:31 阅读次数：0

大数据总结

学习过得技术 HDFS YARN MR HIVE HBASE SPARK SPARK(sparkCore、sparkSql、sparkStreaming) HDFS 数据库管理、存磁盘 Ha模式(在zookeeper之上) 联邦机制(把大象装进冰箱) split切片 Hbase 列式数据库半结构 ...

分类：其他好文时间：2021-04-05 12:37:34 阅读次数：0

MapReduce概述

1.1 MapReduce定义 MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据分析应用”的核心框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 Hadoop 集群上。 1.2 Ma ...

分类：其他好文时间：2021-04-05 12:32:51 阅读次数：0

mvn打包jar包到本地仓库

mvn install:install-file -DgroupId=com.hadoop.XXXXX -DartifactId=hadoop-XXXXX -Dversion=0.4XXXXX -Dpackaging=jar -Dfile=/hadoopXXXX.jar ...

分类：编程语言时间：2021-04-05 12:04:49 阅读次数：0

RDD编程练习

一、filter,map,flatmap练习： 1.读文本文件生成RDD lines lines = sc.textFile('file:///home/hadoop/word.txt') lines.collect() 2.将一行一行的文本分割成单词 words words=lines.flatM ...

分类：其他好文时间：2021-04-01 13:07:18 阅读次数：0

Spark RDD编程基础

准备文本文件从文件创建RDD lines=sc.textFile() 筛选出含某个单词的行 lines.filter()lambda 参数：条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() ...

分类：其他好文时间：2021-03-30 13:26:11 阅读次数：0

共19685条上一页 1 ... 12 13 14 15 16 ... 1969 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)