寒假学习第六天

时间：2020-02-08 00:38:35 阅读：200 评论：0 收藏：0 [点我收藏+]

标签：reduce ast tin rgs red 复数 csharp ack 程序

编写独立应用程序实现数据去重

对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其

中重复的内容，得到一个新文件 C。下面是输入文件和输出文件的一个样例，供参考。

输入文件 A 的样例如下：

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

输入文件 B 的样例如下：

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根据输入的文件 A 和 B 合并得到的输出文件 C 的样例如下：

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 z

package my.scala

import org.apache.spark.{SparkConf, SparkContext}

object case2 {

def main(args: Array[String]): Unit = {

val conf = new SparkConf().setMaster("local").setAppName("reduce")

val sc = new SparkContext(conf)

sc.setLogLevel("ERROR")

//获取数据

val two = sc.textFile("hdfs://192.168.85.128:9000/quchong")

two.filter(_.trim().length>0) //需要有空格。

.map(line=>(line.trim,""))//全部值当key，(key value,"")

.groupByKey()//groupByKey,过滤重复的key value ，发送到总机器上汇总

.sortByKey() //按key value的自然顺序排序

.keys.collect().foreach(println) //所有的keys变成数组再输出

//第二种有风险

two.filter(_.trim().length>0)

.map(line=>(line.trim,"1"))

.distinct()

.reduceByKey(_+_)

.sortByKey()

.foreach(println)

//reduceByKey,在本机suffle后,再发送一个总map，发送到一个总机器上汇总，（汇总要压力小）

//groupByKey,发送本机所有的map,在一个机器上汇总（汇总压力大）

//如果数据在不同的机器上，则会出现先重复数据，distinct，reduceBykey，只是在本机上去重，谨慎一点的话，在reduceByKey后面需要加多一个distinct

}

寒假学习第六天

标签：reduce ast tin rgs red 复数 csharp ack 程序

原文地址：https://www.cnblogs.com/lishengming00/p/12275158.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行