record-12 爬虫程序练习

时间：2018-01-20 11:11:21 阅读：175 评论：0 收藏：0 [点我收藏+]

#__author: hasee
#date:  2018/1/20

from urllib.request import urlopen, urlretrieve
from urllib.parse import quote
from re import findall

url = ‘http://www.cdtest.cn/‘  # 确定URL
f = urlopen(url)  # 利用urlopen()打开URL资源文件
content = f.read()  # 读取文件内容
# content=content.decode(encoding=‘utf-8‘) #将读取到的内容解码处理，转换成字符串
print(content)
f.close()  # 关闭文件

# 正则表达式中|符号表示或者
url_list = findall(r‘img/.*png|img/.*jpg‘, content)  # 利用正则表达式获取网页中所有png/jpg的图片URL，并存放在列表中
print(url_list)
for u in url_list:  # 循环遍历列表，依次完成列表中每一个url的处理
    url1 = url + quote(u)  # 网页中图片URL不完整，需要补充‘http://www.cdtest.cn/‘，并且因为URL中包含中文，利用quote方法进行编码处理

    u1 = u.split(‘/‘)  # 提取图片URL中最后的图片名称，在下载时作为本地保存名称使用
    path1 = ‘e:\\test\\‘ + u1[-1]  # 设置下载时，本地保存路径

    urlretrieve(url1, path1)  # 开始完成当前url1所标识图片资源的下载

record-12 爬虫程序练习

标签：利用使用名称字符正则表达提取中文一个开始

原文地址：https://www.cnblogs.com/minkillmax/p/8319840.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行