码迷,mamicode.com
首页 > 其他好文 > 详细

05RDD

时间:2021-04-21 12:03:05      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:lte   ast   word   键值   技术   image   http   文本文件   ext   

  1. 读文本文件生成RDD lines
  2. 将一行一行的文本分割成单词 words flatmap()
  3. 全部转换为小写 lower()
  4. 去掉长度小于3的单词 filter()
  5. 去掉停用词
  6. 转换成键值对 map()
  7. 统计词频 reduceByKey()
  8. 按字母顺序排序 sortBy(f)
  9. 按词频排序 sortByKey()
  10. 结果文件保存 saveAsTextFile(out_url)技术图片

     

     技术图片

     

     技术图片

     

     技术图片

     

     技术图片

     

     技术图片

     

     技术图片

     

     技术图片

     

     技术图片

     

     

    二、学生课程分数案例

    • 总共有多少学生?map(), distinct(), count()
    • 开设了多少门课程?
    • 每个学生选修了多少门课?map(), countByKey()
    • 每门课程有多少个学生选?map(), countByValue()
    • Tom选修了几门课?每门课多少分?filter(), map() RDD
    • Tom选修了几门课?每门课多少分?map(),lookup()  list
    • Tom的成绩按分数大小排序。filter(), map(), sortBy()
    • Tom的平均分。map(),lookup(),mean()
    • 求每门课的选修人数及平均分。combineByKey()技术图片

       

       技术图片

       

       技术图片

       

       技术图片

       

       技术图片

       

       技术图片

       

       技术图片

       

       技术图片

       

       技术图片

       

       技术图片

       

       

05RDD

标签:lte   ast   word   键值   技术   image   http   文本文件   ext   

原文地址:https://www.cnblogs.com/sangu/p/14676448.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!