搜索关键字：spark streaming，搜索到7556个结果！码迷,mamicode.com！

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

亚马逊AWS官方博客使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能 by AWS Localization | on 26 NOV 2019 | in AWS Big Data | Permalink | Share Ori ...

分类：Web程序时间：2020-06-10 22:57:35 阅读次数：109

Spark fasterxml包冲突异常解决方法

一、概述在调试Spark项目的时候报了一个包冲突异常，找了好长时间，最后发现是包冲突了；特此记录一下，原始报错找不到了。一般包冲突有个明显的特征就是报类找不到异常，可以根据提示把Spark冲突的包排除掉，然后再把其他的把单独加上去，就可以解决了。 Caused by: java.lang.Numb ...

分类：其他好文时间：2020-06-10 10:57:05 阅读次数：65

大数据之Spark 模拟数据(本地和kafka方式运行)

/** * 模拟数据数据格式如下： * * 日期卡口ID 摄像头编号车牌号拍摄时间车速道路ID 区域ID * date monitor_id camera_id car action_time speed road_id area_id * * monitor_flow_action * ...

分类：其他好文时间：2020-06-09 20:34:37 阅读次数：71

Flink SavePoint

一、概述 Savepoint 是检查点的一种特殊实现，底层实现其实也是使用 Checkpoint 的机制。 Savepoint 是用户以手工命令的方式触发 Checkpoint，并将结果持久化到指定的存储路径中，其主要目的是帮助用户在升级和维护集群过程中保存系统中的状态数据，避免因为停机运维或者 ...

分类：其他好文时间：2020-06-09 14:52:23 阅读次数：72

今天的收获

jar包：是用java写的一些类用的话直接用就不用再写了。直接用jar包方便许多。 maven：是用jar包的时候只用下载一次就行了，下次再用就不用再下载一遍了。编程似乎在不断完善，没有人知道未来是啥。我在写spark：是hadoop的完善。因为map和reduce不够用。 spar ...

分类：其他好文时间：2020-06-08 20:48:36 阅读次数：46

Mr与spark的shuffle过程详解及对比

恢复内容开始大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark，mapReducehe和Spark之间的最大区别是前者较偏向于离线处理，而后者重视实现性，下面主要介绍mapReducehe和Spark两者的shuffle过程。 MapReduce的Shuffle ...

分类：其他好文时间：2020-06-08 19:17:29 阅读次数：88

基于es 5.4和es 5.6，列举的是个人工作中经常用到的查询（只是工作中使用的是Java API）

轉自 https://cloud.tencent.com/developer/article/1512622 ES的常用查询与聚合 2019-09-242019-09-24 18:02:41阅读 1.1K0 0 说明基于es 5.4和es 5.6，列举的是个人工作中经常用到的查询（只是工作中使用的 ...

分类：编程语言时间：2020-06-06 18:43:32 阅读次数：54

spark wordcount案例

案例 POM文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instanc ...

分类：其他好文时间：2020-06-06 11:19:08 阅读次数：48

数据湖方案：Hudi、Delta、Iceberg深度对比

目前市面上流行的三大开源数据湖方案分别为：delta、Apache Iceberg和Apache Hudi。其中，由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的delta也显得格外亮眼。 Apache Hudi是由Uber的工程师为满足其内部数据 ...

分类：其他好文时间：2020-06-05 14:44:10 阅读次数：362

Spark读取json数据出现混乱的情况

今天晚上，我们老师给我们布置了一个任务，用spark读取一些json数据，然后做一些数据分析的任务我以为重头戏是数据分析的部分，没想到自己被读取json数据拦了1个多小时，写篇博客记录下 orz 常规的读取数据： val userInfo = spark.read.format("json"). ...

分类：Web程序时间：2020-06-04 21:21:41 阅读次数：129

共7556条上一页 1 ... 30 31 32 33 34 ... 756 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)