码迷,mamicode.com
首页 > 其他好文 > 详细

网络爬虫之古筝名曲爬取

时间:2020-05-03 00:34:08      阅读:75      评论:0      收藏:0      [点我收藏+]

标签:hellip   网络   缺陷   十年   png   输出   操作   get   ima   

学习完理论知识之后信誓旦旦的开始了爬虫之旅,但是一路遭遇挫折。

很喜欢毛不易的《像我这样的人》,一开始打算爬取网易云里这首歌的评论,但是查看了源代码,一直找不到评论的文字,搜了百度才知道对于用户数据会有加密,需要经过一系列非常复杂的操作才能爬取到评论,由于本人水平实在有限,便放弃了。

又想尝试爬取《知否知否应是绿肥红瘦》的分集剧情,但是百度百科的内容过于繁杂,对于标签的处理还没有到达那个水平,也只能不了了之。

心情不是很好,网易云又正好播放到了一首《渔舟唱晚》,博主不才,学过近十年的古筝,于是便想到了不如做个十大古筝名曲的爬虫,主要原因是页面比较简单便于分析爬取…【咳咳

技术图片

这样输出的结果是空字符串,博主便在网上进行了搜索,发现了一个.get_text()函数可以返回标签对应的文字部分,一尝试,果然可以

技术图片

效果是这样的:

技术图片

但是存在的缺陷就是 “第六首 《汉宫秋月》”出现了两次,尝试了一下把所有文本变为一个大的字符串,然后对其中内容进行修改,发现效果不好,这样做的话就会编程这样:

技术图片

 

本人水平实在有限,没法做进一步的处理,希望老师同学们能帮忙给点建议,支支招,谢谢~

 

网络爬虫之古筝名曲爬取

标签:hellip   网络   缺陷   十年   png   输出   操作   get   ima   

原文地址:https://www.cnblogs.com/yycboy/p/12820180.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!