码迷,mamicode.com
首页 > 其他好文 > 详细

ID遍历爬虫

时间:2017-10-08 17:22:18      阅读:237      评论:0      收藏:0      [点我收藏+]

标签:数字   打开   连续   this   nload   html   number   .com   ping   

我们在目标网站打开时发现一些网页ID是连续的数字时,这时候我们就可以用ID遍历的方式进行爬取,但是这样的网站弱点比较少见,特别是有一些ID数字是十多位的数字,这样爬取的时候就会花大量的时间,所以说这样的方法并不是最高效的方法


max_errors=5
# current number of consecutive download errors
num_errors=0
import itertools
for page in itertools.count(1):
url=‘http://example.webscraping.com/view/-%d‘ % page
html=download(url)
if html is None:
#received an error trying to download this page
num_errors+=1
if num_errors==max_errors:
# reached maximum number of
# consecutive errors so exit
break
else:
# sucess - can scrap the result
num_errors=0

ID遍历爬虫

标签:数字   打开   连续   this   nload   html   number   .com   ping   

原文地址:http://www.cnblogs.com/mrruning/p/7637921.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!