软件技术架构:通过限流与熔断,打造一个“靠谱”的系统

如果“高并发”是为了让系统变得“有效率”,可以抵抗大规模用户访问,那限流与熔断就是为了让系统变得“更靠谱”。靠谱包括了高可用性、稳定性、可靠性,做一个“靠谱”的系统需要从很多方面着手,本文着重与大家探讨“限流”与“熔断”。

本文选自《软件架构设计:大型网站技术架构与业务架构融合之道》一书。

软件技术架构:通过限流与熔断,打造一个“靠谱”的系统
  • 漏桶的容量是固定的,流出的速率是恒定的;
  • 流入的速率是任意的;
  • 如果桶是空的,则不需流出;
  • 如果流入数据包超出了桶的容量,则流入的数据包溢出了(被丢弃),而漏桶容量不变。

▊ 令牌桶算法

file

当电路发生短路、温度升高,可能烧毁整个电路的时候,保险丝会自动熔断,切断电路,从而保护整个电路系统。

在计算机系统中,也有类似设计保险丝的思路。熔断有两种策略:一种是根据请求失败率,一种是根据请求响应时间。

(1)根据请求失败率做熔断。对于客户端调用的某个服务,如果服务在短时间内大量超时或抛错,则客户端直接开启熔断,也就是不再调用此服务。然后过一段时间,再把熔断打开,如果还不行,则继续开启熔断。这也正是经常提到的“快速失败(Fail Fast)”原则。

以Hystrix为例,它有几个参数来配置熔断器的策略:

三个参数放在一起,所表达的意思是:每20个请求中,有50%失败时,熔断器就会打开,此时再调用此服务,将会直接返回失败,不再调用远程服务。直到5s之后,重新检测该触发条件,判断是否把熔断器关闭,或者继续打开。

(2)根据请求响应时间做熔断。除了根据请求失败率做熔断,阿里巴巴公司的Sentinel还提供了另外一种思路:根据请求响应时间做熔断。当资源的平均响应时间超过阈值后,资源进入准降级状态。接下来如果持续进入5个请求,且它们的RT持续超过该阈值,那么在接下来的时间窗口内,对这个方法的调用都会自动地返回。代码样例如下:

样例中的时间单位是ms,意思是当平均响应时间大于50ms,并且接下来持续5个请求的RT都超过50ms时,熔断将开启。5000ms之后,熔断将再次关闭。

与限流进行对比会发现:限流是服务端,根据其能力上限设置一个过载保护;而熔断是调用端对自己做的一个保护。

注意:能熔断的服务肯定不是核心链路上的必选服务。如果是的话,则服务如果超时或者宕机,前端就不能用了,而不是熔断。所以,说熔断其实也是降级的一种方式。

《软件架构设计:大型网站技术架构与业务架构融合之道》

余春龙 著

自成一派的架构设计方法论,教你体系化的架构设计思维,点击了解本书详情。

系统的高可用性、稳定性与可靠性需要从很多方面着手,本文带你了解如何通过“限流”与“熔断”让系统变得“更靠谱”。

来源:博文视点

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年9月26日
下一篇 2019年9月26日

相关推荐