Python 爬虫（待改进）

时间：2017-09-01 21:17:11 阅读：134 评论：0 收藏：0 [点我收藏+]

标签：logs tco cep rom close import retrieve web etc

#-*- coding: UTF-8 -*-
import urllib.request
import socket
import re
import sys
import os  


imagGetPath = "G:\\zxh_python\\Spider\\ImagesDown"
def saveFile(path):
    if not os.path.isdir(imagGetPath):
        os.mkdir(imagGetPath)
    
    pos = path.rindex(‘/‘)
    t = os.path.join(imagGetPath,path[pos+1:])
    return t


#网址  
url = "https://alpha.wallhaven.cc/random/"
headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)‘ ‘Chrome/59.0.3071.115 Safari/537.36‘}
#请求  
request = urllib.request.Request(url=url,headers=headers)  
#爬取结果  
response = urllib.request.urlopen(request)  
data = response.read()  
#saveFile(data) 
##设置解码方式
#data = data.decode(‘utf-8‘)
  
##打印结果
#print(data)
##打印爬取网页的各类信息
#print(type(response))
#print(response.geturl())
#print(response.info())
#print(response.getcode())
for link,t in set(re.findall(r‘(https?://[\w./]+\.(jpg|gif|png))‘, str(data))):
    print(link)
    try:
        urllib.request.urlretrieve(link,saveFile(link))
    except:
        print(‘失败‘)

View Code

Python 爬虫（待改进）

标签：logs tco cep rom close import retrieve web etc

原文地址：http://www.cnblogs.com/codebirdhan/p/7464907.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行