python 简单爬虫

时间：2018-03-26 21:31:39 阅读：240 评论：0 收藏：0 [点我收藏+]

标签：out rom res port skin findall 获取网页打开结果

使用urllib.request 和re 模块
 1 from urllib.request import *
 2 import re #处理网络访问
 3 #获取网页
 4 url = ‘https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%C3%C0%C5%AE%CD%BC%C6%AC&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=111111‘
 5 #打开网页
 6 hmtl = urlopen(url)
 7 #获取html代码 ，decode 解码
 8 obj = hmtl.read().decode()
 9 #使用re,找出所有的objURL链接  .*?匹配所有结果
10 urls = re.findall(r‘"objURL":"(.*?)"‘,obj)
11 index = 1
12 for url in urls:
13     try:
14         if re.search(‘.jpg$‘,url):
15             print(‘downloading........%d‘%index)
16             urlretrieve(url,‘pic‘ +str(index)+ ‘.jpg‘)
17         else:
18             print(‘downloading........%d‘ % index)
19             urlretrieve(url, ‘pic‘ + str(index) + ‘.png‘)
20         index += 1
21 
22     except Exception:
23         print(‘download error....%d‘%index)
24     else:
25         print(‘download complete‘)

爬取一张图片

使用requests 模块
1 import requests
2 image_url = ‘http://www.cnblogs.com/Images/Skins/BJ2008.jpg‘
3 response = requests.get(image_url)
4 with open(‘outlook.jpg‘,‘wb‘) as f:
5     f.write(response.content)

python 简单爬虫

标签：out rom res port skin findall 获取网页打开结果

原文地址：https://www.cnblogs.com/sineik/p/8653761.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行