jar包:是用java写的一些类 用的话直接用就不用再写了 。直接用jar包方便许多。 maven:是用jar包的时候只用下载一次就行了 ,下次再用就不用再下载一遍了。 编程似乎在不断完善 ,没有人知道未来是啥。 我在 写spark:是hadoop的完善。因为map和reduce不够用 。 spar ...
分类:
其他好文 时间:
2020-06-08 20:48:36
阅读次数:
46
恢复内容开始 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。 MapReduce的Shuffle ...
分类:
其他好文 时间:
2020-06-08 19:17:29
阅读次数:
88
轉自 https://cloud.tencent.com/developer/article/1512622 ES的常用查询与聚合 2019-09-242019-09-24 18:02:41阅读 1.1K0 0 说明 基于es 5.4和es 5.6,列举的是个人工作中经常用到的查询(只是工作中使用的 ...
分类:
编程语言 时间:
2020-06-06 18:43:32
阅读次数:
54
案例 POM文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instanc ...
分类:
其他好文 时间:
2020-06-06 11:19:08
阅读次数:
48
目前市面上流行的三大开源数据湖方案分别为:delta、Apache Iceberg和Apache Hudi。 其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外亮眼。 Apache Hudi是由Uber的工程师为满足其内部数据 ...
分类:
其他好文 时间:
2020-06-05 14:44:10
阅读次数:
362
今天晚上,我们老师给我们布置了一个任务,用spark读取一些json数据,然后做一些数据分析的任务 我以为重头戏是数据分析的部分,没想到自己被读取json数据拦了1个多小时,写篇博客记录下 orz 常规的读取数据: val userInfo = spark.read.format("json"). ...
分类:
Web程序 时间:
2020-06-04 21:21:41
阅读次数:
129
大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如下: JavaRDD<Integer> myRDD = sc.parallelize(Arrays.asList(1,2,3)); Sc ...
分类:
其他好文 时间:
2020-06-04 10:38:09
阅读次数:
76
1.java编译报错 错误 Error: A JNI error has occurred, please check your installation and try again 👆下面还有其他报错但我没有截到,但问题的原因都是这个👆 这个错误一般情况是由于java 版本 与javac 版本 ...
分类:
其他好文 时间:
2020-06-04 01:04:18
阅读次数:
78
生态 Spark Core:最重要,其中最重要的是RDD(弹性分布式数据集) Spark SQL Spark Streaming Spark MLLib:机器学习算法 Spark Graphx:图计算 特点 针对大规模数据处理的快速通用引擎 基于内存计算 速度快,易用,兼容性强 体系架构 主节点:C ...
分类:
数据库 时间:
2020-06-03 20:48:29
阅读次数:
89
1.下载spark源码包2.下载scala3.下载maven4.防止maven内溢出: export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m" 5.在spark目录下,有pom文件的那里 执行: 执行maven安装 ./build/mvn ...
分类:
其他好文 时间:
2020-06-01 01:15:14
阅读次数:
74