python爬虫URL重试机制的实现方法(python2.7以及python3.5)-侯体宗的博客

python爬虫URL重试机制的实现方法(python2.7以及python3.5)
Python / 管理员发布于 7年前 260

应用场景：

状态不是200的URL重试多次

代码比较简单还有部分注释

python2.7实现：

# -*-coding:utf-8-*-"""ayou""" import requests def url_retry(url,num_retries=3): print("access!") try:  request = requests.get(url,timeout=60)  #raise_for_status(),如果不是200会抛出HTTPError错误  request.raise_for_status()  html = request.content except requests.HTTPError as e:  html=None  if num_retries>0:   #如果不是200就重试，每次递减重试次数   return url_retry(url,num_retries-1) #如果url不存在会抛出ConnectionError错误，这个情况不做重试 except requests.exceptions.ConnectionError as e:  return return html url_retry("http://httpbin.org/status/404")

python3.5实现：

# -*-coding:utf-8-*-"""ayou"""import asyncioimport aiohttp async def print_page(url,num_retries=3): async with aiohttp.ClientSession() as session:  try:   async with session.get(url,timeout=60) as response:    print("access!")     #raise_for_status(),如果不是200会抛出HttpProcessingError错误    response.raise_for_status()    body = await response.text()  except aiohttp.errors.HttpProcessingError as e:   body = None   if num_retries > 0:     #如果不是200就重试，每次递减重试次数    return await print_page(url, num_retries - 1)  #不存在URL会抛出ClientResponseError错误  except aiohttp.errors.ClientResponseError as e:   return e session.close() print(body) return body def main(): #这是一个不存在URL # url = 'http://httpbin.org/status/404111' #这是一个404的URL url = 'http://httpbin.org/status/404' loop = asyncio.get_event_loop() loop.run_until_complete(print_page(url)) loop.close() if __name__ == '__main__': main()

爬虫URL重试机制封装成修饰器(python2.7以及python3.5以上)

python2.7版本：

# -*-coding:utf-8-*-"""ayou"""import requests #定义一个重试修饰器，默认重试一次def retry(num_retries=1): #用来接收函数 def wrapper(func):  #用来接收函数的参数  def wrapper(*args,**kwargs):   #为了方便看抛出什么错误定义一个错误变量   last_exception =None   #循环执行包装的函数   for _ in range(num_retries):    try:     #如果没有错误就返回包装的函数，这样跳出循环     return func(*args, **kwargs)    except Exception as e:     #捕捉到错误不要return，不然就不会循环了     last_exception = e   #如果要看抛出错误就可以抛出   # raise last_exception  return wrapper return wrapper if __name__=="__main__": @retry(5) def url_retry(url):  request = requests.get(url, timeout=60)  print("access!")  request.raise_for_status()  html = request.content  print(html)  return html  url_retry("http://httpbin.org/status/404") # url_retry("http://httpbin.org/status/404111") # url_retry("http://www.baidu.com")

python3.5以上版本：

# -*-coding:utf-8-*-"""ayou"""import aiohttp,asyncio #定义一个重试修饰器，默认重试一次def retry(num_retries=1): #用来接收函数 def wrapper(func):  #用来接收函数的参数  def wrapper(*args,**kwargs):   #为了方便看抛出什么错误定义一个错误变量   last_exception =None   #循环执行包装的函数   for _ in range(num_retries):    try:     #如果没有错误就返回包装的函数，这样跳出循环     return func(*args, **kwargs)    except Exception as e:     #捕捉到错误不要return，不然就不会循环了     last_exception = e   #如果要看抛出错误就可以抛出   # raise last_exception  return wrapper return wrapper async def print_page(url): async with aiohttp.ClientSession() as session:  async with session.get(url,timeout=60) as response:   print("access!")    #raise_for_status(),如果不是200会抛出HttpProcessingError错误   response.raise_for_status()   body = await response.text() session.close() print(body) return body @retry(5)def loop_get(): # url = "http://www.baidu.com" # url = 'http://httpbin.org/status/404111' url = 'http://httpbin.org/status/404' loop = asyncio.get_event_loop() loop.run_until_complete(print_page(url)) loop.close() if __name__ == '__main__': loop_get()

以上这篇python爬虫URL重试机制的实现方法(python2.7以及python3.5)就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

上一条：
对python中的six.moves模块的下载函数urlretrieve详解
下一条：
对python3标准库httpclient的使用详解

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

近期文章
在go语言中实现字符串可逆性压缩及解压缩功能(0个评论)
使用go + gin + jwt + qrcode实现网站生成登录二维码在app中扫码登录功能(0个评论)
在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)
智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)

近期评论
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..
博主在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了，可以看看近期评论的其他文章..
1111 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论网站不能打开，博主百忙中能否发个APP下载链接，佛跳墙或极光..

Top