码迷,mamicode.com
首页 > 数据库 > 详细

08 学生课程分数的Spark SQL分析

时间:2021-05-24 15:33:34      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:大小   ali   distinct   分数   color   sort   rgba   多少   排序   

用DataFrame的操作或SQL语句完成以下数据分析要求,并和用RDD操作的实现进行对比:

  • 每个分数+5分。
df_scs.select(name, course, df_scs.score+5).show()

  

技术图片

 

 

 

  • 总共有多少学生?
  • 总共开设了哪些课程?
df_scs.select(name).distinct().count()
df_scs.select(course).distinct().show()

技术图片

技术图片

 

 

  • 每个学生选修了多少门课?
df_scs.groupBy(name).count().show()

技术图片

 

 

  • 每门课程有多少个学生选?
df_scs.groupBy(course).count().show()

技术图片

 

 

  • 每门课程大于95分的学生人数?
df_scs.filter(df_scs.score>95).groupBy(course).count().show()

技术图片

 

 

  • Tom选修了几门课?每门课多少分?
df_scs.filter(df_scs[name]==Tom).show()

技术图片

 

 

 

  • Tom的成绩按分数大小排序。
df_scs.filter(df_scs[name]==Tom).sort(df_scs[score].desc()).show()

技术图片

 

 

  • Tom的平均分。
df_scs.filter(df_scs.name==Tom).agg({"score":"mean"}).show()

技术图片

 

 

  • 求每门课的平均分,最高分,最低分。
df_scs.groupBy(course).avg(score).show()
df_scs.groupBy(‘course‘).max(‘score‘).show()
df_scs.groupBy(‘course‘).min(‘score‘).show()

技术图片

 

 技术图片

 

 

  • 求每门课的选修人数及平均分,精确到2位小数。
  • 每门课的不及格人数,通过率
df_scs.select(countDistinct(name).alias(学生人数),countDistinct(course).alias(课程数),round(mean(score),2).alias(所有课的平均分).alias(所有课的平均分)).show()

df_scs.filter(df_scs.score<60).groupBy(df_scs.course).count().show()

 

  • 技术图片

     

     

  • 结果可视化。

08 学生课程分数的Spark SQL分析

标签:大小   ali   distinct   分数   color   sort   rgba   多少   排序   

原文地址:https://www.cnblogs.com/jieninice/p/14782715.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!