python`最简单的爬虫`实现

时间：2020-05-13 21:48:12 阅读：78 评论：0 收藏：0 [点我收藏+]

不管怎么样，一天一更的好习惯一定要保持，现在一天不写点东西都感觉不踏实，总会感觉少了点什么，废话少说，记录一下今天初学的spider（甚至说不上是spider，I‘m so vagetable [/认真]）
下面是最朴素(垃圾)的源码爬取脚本，源码爬取其实是没必要的，但是为了练习+学习，这种记录还是有必要的，上python

import requests                                   #没有这个包就pip install requests

url = input("请输入要爬取源码的网站的URL:")
html = requests.get(url)                          #源码获取
text = html.text 			          #源码转换为text文本
					          #其实上面两步可以合为
#text = requests.get(url).text这样
#文件操作
txt = open(‘D:///1.txt‘,"wb+")  		  #打开(没有就新建)文件操作，跟c++有些不同吧
txt.write(text.encode(‘utf-8‘)) 		  #文本编码为utf-8
print("txt文件已经生成在了  D:\1.txt    路径下")

加上个input("")多人性化，直接在powershell就能用了(当然你要有python3环境变量)
上一下我测试的截图。
首先是我要爬取的网页截图
技术图片这里专门挑了个最简洁的网页
代码power shell运行

文件内容展示
这应该是资源爬取的第一步吧，.md(你知道这只是后缀名)，万里长征刚迈开第一步。

python`最简单的爬虫`实现

标签：插入 pow 文本 pip 图片人性化爬虫运行 log

原文地址：https://www.cnblogs.com/a16n/p/12885055.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行