一、概述 在调试Spark项目的时候报了一个包冲突异常,找了好长时间,最后发现是包冲突了;特此记录一下,原始报错找不到了。一般包冲突有个明显的特征就是报类找不到异常,可以根据提示把Spark冲突的包排除掉,然后再把其他的把单独加上去,就可以解决了。 Caused by: java.lang.Numb ...
                            
                            
                                分类:
其他好文   时间:
2020-06-10 10:57:05   
                                阅读次数:
65
                             
                    
                        
                            
                            
                                    /** * 模拟数据 数据格式如下: * * 日期 卡口ID 摄像头编号 车牌号 拍摄时间 车速 道路ID 区域ID * date monitor_id camera_id car action_time speed road_id area_id * * monitor_flow_action * ...
                            
                            
                                分类:
其他好文   时间:
2020-06-09 20:34:37   
                                阅读次数:
71
                             
                    
                        
                            
                            
                                jar包:是用java写的一些类 用的话直接用就不用再写了 。直接用jar包方便许多。 maven:是用jar包的时候只用下载一次就行了 ,下次再用就不用再下载一遍了。 编程似乎在不断完善 ,没有人知道未来是啥。 我在 写spark:是hadoop的完善。因为map和reduce不够用 。 spar ...
                            
                            
                                分类:
其他好文   时间:
2020-06-08 20:48:36   
                                阅读次数:
46
                             
                    
                        
                            
                            
                                    恢复内容开始 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。 MapReduce的Shuffle ...
                            
                            
                                分类:
其他好文   时间:
2020-06-08 19:17:29   
                                阅读次数:
88
                             
                    
                        
                            
                            
                                    双value 1) intersection 函数签名 def intersection(other: RDD[T]): RDD[T] 函数说明 对源RDD和参数RDD求交集后返回一个新的RDD 保留分区中中较大分区数 val dataRDD1 = sparkContext.makeRDD(List ...
                            
                            
                                分类:
其他好文   时间:
2020-06-07 15:12:37   
                                阅读次数:
65
                             
                    
                        
                            
                            
                                轉自 https://cloud.tencent.com/developer/article/1512622 ES的常用查询与聚合 2019-09-242019-09-24 18:02:41阅读 1.1K0 0 说明 基于es 5.4和es 5.6,列举的是个人工作中经常用到的查询(只是工作中使用的 ...
                            
                            
                                分类:
编程语言   时间:
2020-06-06 18:43:32   
                                阅读次数:
54
                             
                    
                        
                            
                            
                                    案例 POM文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instanc ...
                            
                            
                                分类:
其他好文   时间:
2020-06-06 11:19:08   
                                阅读次数:
48
                             
                    
                        
                            
                            
                                    目前市面上流行的三大开源数据湖方案分别为:delta、Apache Iceberg和Apache Hudi。 其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外亮眼。 Apache Hudi是由Uber的工程师为满足其内部数据 ...
                            
                            
                                分类:
其他好文   时间:
2020-06-05 14:44:10   
                                阅读次数:
362
                             
                    
                        
                            
                            
                                今天晚上,我们老师给我们布置了一个任务,用spark读取一些json数据,然后做一些数据分析的任务 我以为重头戏是数据分析的部分,没想到自己被读取json数据拦了1个多小时,写篇博客记录下 orz 常规的读取数据: val userInfo = spark.read.format("json").  ...
                            
                            
                                分类:
Web程序   时间:
2020-06-04 21:21:41   
                                阅读次数:
129
                             
                    
                        
                            
                            
                                    大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如下: JavaRDD<Integer> myRDD = sc.parallelize(Arrays.asList(1,2,3)); Sc ...
                            
                            
                                分类:
其他好文   时间:
2020-06-04 10:38:09   
                                阅读次数:
76