码迷,mamicode.com
首页 > 其他好文 > 详细

小白爬虫综合项目1

时间:2019-06-23 21:07:26      阅读:89      评论:0      收藏:0      [点我收藏+]

标签:search   html   tar   pre   end   文件夹   print   获取   tps   

项目1:搜狗知乎,爬取指定存储上一级目录的名字,以及存储爬取的页码

#爬取前三页数据
import requests
import os
file_name=input(请输入一个文件名:)
#创建一个文件夹
if not os.path.exists(f./{file_name}):
    os.mkdir(f./{file_name})
word=input(enter a search word:)
#动态指定页码的范围
start_pageNum=int(input(enter a start pageNum))
end_pageNum=int(input(enter a end pageNum))

#自定义请求头信息
headers={
    User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36
}
url=https://www.sogou.com/sogou
for page in range(start_pageNum,end_pageNum+1):
    params={
        query:word,
        page:page,
        ie:utf-8,
        insite:zhihu.com
    }
    response=requests.get(url=url,params=params,headers=headers)
    #获取响应中的页面数据(指定页码(page))
    page_text=response.text
    
    #进行持久化存储
    fileName=word+str(page)+.html
    filePath=f./{file_name}/+fileName
    with open(filePath,w,encoding=utf-8)as fp:
        fp.write(page_text)
        print(第%d页数据写入成功%page)

 

项目2:

 

小白爬虫综合项目1

标签:search   html   tar   pre   end   文件夹   print   获取   tps   

原文地址:https://www.cnblogs.com/studybrother/p/11073902.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!