Cloudflare宕机导致全球大瘫痪,官方回应系软件部署不当

北京时间7月2日21:50分左右,Cloudflare经历了一次全球性的网络宕机,用户访问使用了Cloudflare的网站出现502错误,直接导致 Huobi OKEx Bitfinex Coinbase BigONE CoinMarketCap 全挂了。更为讽刺的是通常用于检查 Web 服务中断的 DownDetector 站点也受到了影响。

Cloudflare宕机导致全球大瘫痪,官方回应系软件部署不当

受本轮宕机事件影响,加密货币交易所 CoinDesk 显示了不正确的报价,错误地将比特币价格压低到了 26 美元(BTC 在今年 6 月份飙到了 10000 美元以上)。

Cloudflare 首席执行官 Matthew Prince 在某条推特底下表示,本轮宕机事件并非黑客攻击所引发,而是服务器超载了。他写到:“由于 CPU 使用量激增,导致主系统和备份系统出现了崩溃”。

Cloudflare宕机导致全球大瘫痪,官方回应系软件部署不当

随后Cloudflare 公司在博客文章上证实了其首席执行官的说法。该公司在 HTTP502出错事件报告发布一小时后、在网络性能问题修复30分钟后进行了更新,并表示,Cloudflare在新的Web应用层防火墙(WAF)中部署了一个配置错误的规则,且这些规则一次性在所有节点上部署,其中一条规则包含的正则表达式导致了其在全世界各地的机器 CPU 占用 100%,从而导致了全球大面积宕机。Cloudflare工程师已经在第一时间修复了此问题,目前Cloudflare相关服务已恢复正常。

因为WAF规则是由自动化测试套件在模拟模式下进行,它顺利通过了测试,并被一次性同步推送全球CDN节点上应用部署,因此导致全球集群机器上的CPU峰值达到100%。这100%的CPU峰值最终导致了大量用户访问时看到的502错误。在最糟糕的时候,覆盖了总体流量的82%。

值得一提的这是Cloudflare公司最近经历的第二次网络中断问题,尽管其在6月24日经历的 BGP 路由泄漏是由Verizon 和Noction 引发的。

Cloudflare 公司的首席执行官表示,BGP 路由泄漏难以修复,因为 Cloudflare 团队无法在中断期间联系 Verizon NOC。

鉴于超过1600万家网站都在使用Cloudflare 公司的 DDoS 缓解措施、性能提升和多种其它服务,因此 Cloudflare 网络中断通常会对整个互联网造成巨大影响。

Cloudflare 称,这起事故暴露了它测试的不充分,他们将检查和修改测试流程,避免以后发生类似的事故。

来源:云有料

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年6月2日
下一篇 2019年6月2日

相关推荐