10

腾讯云 Serverless 重试策略配置能力解读

 3 years ago
source link: https://mp.weixin.qq.com/s?__biz=Mzg4NzEyMzI1NQ%3D%3D&%3Bmid=2247489650&%3Bidx=1&%3Bsn=b1d53e80749364e5b931f75b2d783eec
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

在函数调用的过程中,可能有多种原因导致函数调用失败。不同的错误类型以及调用方式(同步调用、异步调用)都会影响重试策略。实际业务生产中,有很多开发者对这里的策略有疑惑,本文将全面解读 Serverless 异步队列重试策略,并对多种使用场景提供相关的配置建议。

错误类型

在函数调用的过程中,可能有多种原因导致函数调用失败。错误类型分为以下几类:

一、调用错误

调用错误发生在函数实际执行前。以下情形均会产生调用错误:

  • 调用请求错误。例如传入的 Event 数据结构过大、入参不符合要求、函数不存在等。

  • 调用方错误。主要出现在调用方权限不足的情形。

  • 超限错误。调用的并发数超出 最大并发数 限制,查看并发限制:https://cloud.tencent.com/document/product/583/11637

二、运行错误

运行错误发生在函数实际运行中。运行错误有以下情形:

  • 代码运行错误。这类错误出现在用户代码执行过程中,例如函数代码抛出异常,或者返回结果格式问题等。

  • Runtime 错误。函数运行过程中,Runtime 负责拉起用户代码并执行。Runtime 错误指的是 Runtime 发现并上报的错误,例如函数运行超时、代码语法报错等。

三、系统错误

函数平台的错误,例如 internal error。

重试策略

不同错误类型以及调用方式(同步调用、异步调用)都会影响重试策略。

一、同步调用

同步调用包含 云 API 触发器 的同步调用、API 网关触发器 及 CKafka 触发器。由于同步调用的过程中,错误信息会直接返回给用户,所以在同步调用中发生错误时,平台不会自动重试,重试策略(是否重试、重试几次)均由调用方决定。

二、异步调用

异步调用包含 云 API 触发器 的异步调用、COS 触发器、定时触发器 及 CMQ Topic 触发器 等,具体触发器调用类型请参考相关触发器说明文档。在新版重试策略中,开发者可以根据业务诉求在函数配置中修改和自定义默认的【重试次数】,【最长等待时间】配置,该配置只适用于异步调用场景。

byiqiq.png!mobile
  • 重试次数:函数返回错误时云函数重试的次数,该参数只适用于运行错误的策略配置,默认配置为2次。

  • 最长保留时间:云函数在异步事件队列中保留事件的最长时间,该参数适用于所有异步调用的重试配置,默认配置为6小时,最大长度支持10w条。

异步调用发生各种错误类型的重试策略:

  • 运行错误(含 用户代码运行错误Runtime 错误 ):当发生该类错误时,函数平台将默认重试两次或使用配置的重试次数,固定间隔1分钟。在自动重试的同时,新的触发事件仍可正常处理。如果您配置了死信队列,三次失败后的事件将传入死信队列,否则事件将被函数平台丢弃。

  • 系统错误:当发生该类错误时,函数平台会根据您配置的最长等待时间持续重试(默认持续重试6小时),重试间隔按照指数退避增加到5分钟。如果您配置了死信队列,重试超过最长等待时间仍失败的事件会被发送到死信队列,由用户进行进一步处理,否则事件将被函数平台丢弃。

  • 超限错误:当发生该类错误时,函数平台会根据您配置的最长等待时间持续重试(默认持续重试6小时),重试间隔为1分钟。如果您配置了死信队列,重试超过最长等待时间仍失败的事件会被发送到死信队列,由用户进行进一步处理,否则事件将被函数平台丢弃。

  • 调用请求错误和调用方错误:当发生该类错误时,除了 超限错误 ,平台将不会对该类其他错误进行重试,因为其他请求错误即便重试也不会成功。

错误重试配置建议

  • 一般使用场景:

一般使用场景下,推荐默认配置即可满足大多数错误情况下的重试诉求,无需进行任何修改即可放心使用。

  • 对代码重入较敏感:

对代码重入较敏感的场景,建议将重试次数调整为 0 即代码报错不会重试。

  • 对事件处理实效性较高:

在事件处理实效性要求较高的场景下,并在一定时间范围内进行重试的场景下,可配置事件最长保留事件来及时淘汰过期事件。保证错误重试的实效性。

  • 并发超限场景:

并发超限(ResourceLimitReached)指云函数 SCF 在同一时刻执行的并发数超过并发配额导致的函数报错。并发超限分为同步调用、异步调用两种情况。

异步调用并发超限时其处理逻辑由云函数 SCF 进行自动重试,在保留时间内并发超限不会导致如何数据丢弃。通常情况下异步调用的并发超限用户无需进行任何操作,在设定的最长等待时间内,函数平台会自动对并发超限错误进行重试。异步调用中,如对实效性比较敏感可以通过配置保留并发来减少或降低超限对业务系统的影响,数据较重要可配置死信队列兜底。

同步调用的过程中,错误信息会直接返回给用户。

总结

目前重试可配置已全量开放,通过重试策略配置的能力,可根据业务需求自行配置重试策略。平台的默认重试策略可满足大多数开发者错误重试的诉求,更多异步队列重试配置能力建设请关注微信号或官网产品动态:https://cloud.tencent.com/document/product/583/41138

One More Thing

立即体验腾讯云 Serverless Demo,获取 Serverless 新用户礼包,请在 PC 端访问:

serverless.cloud.tencent.com/start?c=wx

v6nyUrv.jpg!mobile 欢迎进入千人 QQ 群 (537539545) 交流!
  • GitHub: github.com/serverless

  • 官网: cloud.tencent.com/product/serverless-catalog

7fM7Vzu.png!mobile 点击「 阅读原文 」进入 Serverless 中文网,体验更多 Serverless 应用的最佳实践!

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK