码迷,mamicode.com
首页 > 编程语言 > 详细

python爬爬(网友提供学习)

时间:2014-09-13 17:15:55      阅读:139      评论:0      收藏:0      [点我收藏+]

标签:http   io   os   ar   for   文件   数据   div   sp   

import urllib2,urllib,os,re

def ZZ(url):

     pathw=os.getcwd()

     #图片和标题目录

     imagetitleregion=r‘<div class="large-Imgs">\r\n  <img src="(.+?)" alt="(.+?)">‘

     imagetitleRe=re.compile(imagetitleregion)

 

     #提取文件

     downregion=u‘<a href="(.+?)"target="_blank" class="button btn-down" title="免费下载"><i class="icon-down icon-white"></i><i class="icon-white icon-down-transiton"></i>免费下载</a>‘

     downRe=re.compile(downregion)

 

     for i in range(5,5365+1):

         try:

            response=urllib2.urlopen(url+str(i)+‘.shtml‘)

            html=response.read()

            print u‘爬‘+str(i)+u‘页面数据‘

 

             #提取图片和标题

            m=imagetitleRe.findall(html+re.S)

 

            imageurl=m[0][0].decode(‘utf-8‘)

            title=m[0][1].decode(‘utf-8‘)

            path=pathw+‘\\‘+title+‘_‘+str(i)

            if not (os.path.isdir(path)):

                os.mkdir(path)

            if imageurl!=u‘佚名‘:

                urllib.urlretrieve(‘http://www.cssmoban.com‘+imageurl,path+‘\\‘|str(i)+‘.jpg‘)

            #提取文件

                m=downRe.findall(html)

 

                urllib.urlretrieve(m[0],path+‘\\‘+str(i)+‘.rar‘)

                print u‘爬‘+str(i)+u‘页面数据完成‘

         except Exception as s :

             print s,u‘失败‘

url=raw_input(‘Url:‘)

ZZ(url)

python爬爬(网友提供学习)

标签:http   io   os   ar   for   文件   数据   div   sp   

原文地址:http://www.cnblogs.com/mhxy13867806343/p/3970000.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!