码迷,mamicode.com
首页 > 编程语言 > 详细

20201316 2020-2021-2 《Python程序设计》实验四报告

时间:2021-06-16 17:54:54      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:下载   快速   神经网络   nbsp   没有   blog   alt   png   教师   

20201316 2020-2021-2 《Python程序设计》实验四报告

课程:《Python程序设计》

班级:2013

姓名:陈鑫

学号:20201316

实验教师:王志强

实验日期:2021年6月15日

必修/选修: 公选课

1.实验内容

Python综合应用:爬虫、数据处理、可视化、机器学习、神经网络、游戏、网络安全等。 课代表和各小组负责人收集作业(源代码、视频、综合实践报告)

个人对爬虫更感兴趣一些,所以这次就选择了爬虫作为大作业。

本次实验我爬取了一个视频网站的视频和一个图片网站的图片,之前一直在爬一些网站的文字,就按学长教的那样爬豆瓣的电影top250的名字,但是我发现以我的能力爬不来4399的游戏名字或者bilibili的视频标题,爬下来的要么是乱码要么啥都没有,我也搞不懂啥问题,后来就只成功爬下来起点中文网的小说名字,然后再看视频学习怎么爬视频和图片。而且爬取的都是一些反爬非常弱的网站。

2. 实验过程及结果

目标网站:https://www.ku6.com/detail/69

工具:pycharm Firefox

2.1 导入模块

导入requests 和 json 模块

2.2获取url

很简单的一个步骤,按f12再刷新页面很容易就找到了,如图:

 技术图片

2.3发送请求,获取数据

最好是伪装一下,图中数据一行输出了,看起来有点麻烦:

 技术图片

2.4 提取数据

先使用json.loads将字符串类型数据转化成字典类型,这样查找起来非常方便快速

观察数据,然后使用for循环将数据中的视频标题和地址(点开就能播放的那种)提取出来,用于下载和保存。

 技术图片

2.5本地保存

使用文件操作将刚刚提取的数据保存在本地,只要写清楚本地目录,应该是都能保存好的,我是直接在python文件所在目录下创建了一个video文件夹然后保存在里面:

 技术图片

2.6运行结果

里面有三个视频播放不了,不知道是为啥。

 技术图片

 

对图片也比较感兴趣,就尝试爬了图片:

 技术图片

 技术图片

2.7码云链接

视频:https://gitee.com/cx20201316/pythonstart1/blob/master/paccp.py

图片:https://gitee.com/cx20201316/pythonstart1/blob/master/pac.py

 

3. 实验过程中遇到的问题和解决过程

问题1:在爬取视频的时候提示TypeError,如何解决

 技术图片

问题1解决方案:经查询得知视频数据属于二进制数据,要先转换数据类型才行,可以使用video_data = requests.get(url=data_link, headers=a).content进行转换。

问题2:在爬取12306的车票信息时候,使用json.loads()时总是报错。如图:

 技术图片

问题2解决方案:经查询得json数据格式问题。因为爬到的数据有些不是json格式,所以报错。解决方法是构造get请求参数param,把不合格数据筛掉。但是还是不太明白

 

全课感悟

   本次python选修课总体上来感觉还是非常不错的,因为之前有一些python的基础,所以相比其他零基础的同学,学的还是比较轻松的,当然也因此一开始时没有认真听讲,说实话感觉错过了老师讲的很多细节。王老师讲课的方式感觉和c语言老师的非常不一样,王老师讲的更有趣,更生动一些,相比起来,我更喜欢王老师这种讲课方式。之后的课程感觉难度就上来了,之前没听到的细节可能就影响到了之后的听课,所以有时候会有点听不明白。但后面通过老师发在云班课和网上的资源还是能够弄懂的。四个实验感觉上来说,前两个还能理解很多,后面的就有些难理解,大部分都停留在知其然的层面,但是那些爬虫,GUI,游戏等编程技术还是让我非常感兴趣的,也让我感受到了python的功能强大与方便,希望以后还有更多时间来学习python。最后想给王老师提个小小的建议(如果能看到的话):在实验室上课的时候,没抢到前面的位置,坐后面就有点听不清了,希望那个话筒能大点声音。总之,非常感谢王老师这学期的悉心教导!

参考资料

视频地址:https://www.bilibili.com/video/BV1go4y127TQ?t=565&p=4

 

20201316 2020-2021-2 《Python程序设计》实验四报告

标签:下载   快速   神经网络   nbsp   没有   blog   alt   png   教师   

原文地址:https://www.cnblogs.com/cxzuishuai/p/14887612.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!