package spark.action.factory; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql ...
分类:
其他好文 时间:
2020-05-08 21:18:36
阅读次数:
120
//spark读取数据 Dataset<Row> df = spark.read().textFile(currentSrcPath, 1); Dataset<Row> df = spark.read().json(path); Dataset<Row> df = spark.read().orc( ...
分类:
其他好文 时间:
2020-05-08 18:23:41
阅读次数:
85
1、参数配置(并行度)分区的默认个数等于对spark.default.parallelism的指定值2、根据父rdd的reduceTask数量3、读取hdfs的文件生成的rddrdd分区的数量等于hdfs的文件的block4、sparkStreaming生成的rdd根据block interval, ...
分类:
其他好文 时间:
2020-05-08 16:12:24
阅读次数:
129
前言 目前仅在一家公司做过大数据相关,也不太清楚其他公司情况。东家这常用的大数据离线处理基本就是sqoop导入到hive中,然后使用spark或者hive计算出结果再导出到oracle中。很多情况下是把oracle中整个表或者某个时间条件的筛选出来的数据整个删掉,再把最新的这部分数据全部导数回到or ...
分类:
数据库 时间:
2020-05-05 21:59:35
阅读次数:
102
1 package com.bawei.core 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 /** 7 * 单词统计 8 9 */ 10 object Spa ...
分类:
数据库 时间:
2020-05-05 18:27:44
阅读次数:
87
1 package com.bawei.stream 2 3 import java.net.InetSocketAddress 4 5 import org.apache.spark.storage.StorageLevel 6 import org.apache.spark.streaming. ...
分类:
Web程序 时间:
2020-05-05 18:21:50
阅读次数:
79
1 package com.bawei.stream 2 3 import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} 4 import org.apache.spark.streaming.{Seconds, ...
分类:
其他好文 时间:
2020-05-05 18:01:51
阅读次数:
55
1 package com.bawei.review01 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.sql.{DataFrame, SparkSession} 5 6 case class StuScore(id:In ...
分类:
其他好文 时间:
2020-05-05 17:49:28
阅读次数:
54
Spark Job log 文件分析: 下面是一个Spark 数据据统计Job 的 log 文件, 从前到后的顺序分析Job的执行过程(Spark local mode)。 启动 SparkContext 提交 Job RatingHistogram 20/05/04 18:02:20 INFO S ...
分类:
其他好文 时间:
2020-05-05 09:12:49
阅读次数:
103