Cloudflare宕机导致全球大瘫痪，官方回应系软件部署不当

北京时间7月2日21:50分左右，Cloudflare经历了一次全球性的网络宕机，用户访问使用了Cloudflare的网站出现502错误，直接导致 Huobi OKEx Bitfinex Coinbase BigONE CoinMarketCap 全挂了。更为讽刺的是通常用于检查 Web 服务中断的 DownDetector 站点也受到了影响。

受本轮宕机事件影响，加密货币交易所 CoinDesk 显示了不正确的报价，错误地将比特币价格压低到了 26 美元（BTC 在今年 6 月份飙到了 10000 美元以上）。

Cloudflare 首席执行官 Matthew Prince 在某条推特底下表示，本轮宕机事件并非黑客攻击所引发，而是服务器超载了。他写到：“由于 CPU 使用量激增，导致主系统和备份系统出现了崩溃”。

随后Cloudflare 公司在博客文章上证实了其首席执行官的说法。该公司在 HTTP502出错事件报告发布一小时后、在网络性能问题修复30分钟后进行了更新，并表示，Cloudflare在新的Web应用层防火墙(WAF）中部署了一个配置错误的规则，且这些规则一次性在所有节点上部署，其中一条规则包含的正则表达式导致了其在全世界各地的机器 CPU 占用 100%，从而导致了全球大面积宕机。Cloudflare工程师已经在第一时间修复了此问题，目前Cloudflare相关服务已恢复正常。

因为WAF规则是由自动化测试套件在模拟模式下进行，它顺利通过了测试，并被一次性同步推送全球CDN节点上应用部署，因此导致全球集群机器上的CPU峰值达到100%。这100%的CPU峰值最终导致了大量用户访问时看到的502错误。在最糟糕的时候，覆盖了总体流量的82%。

值得一提的这是Cloudflare公司最近经历的第二次网络中断问题，尽管其在6月24日经历的 BGP 路由泄漏是由Verizon 和Noction 引发的。

Cloudflare 公司的首席执行官表示，BGP 路由泄漏难以修复，因为 Cloudflare 团队无法在中断期间联系 Verizon NOC。

鉴于超过1600万家网站都在使用Cloudflare 公司的 DDoS 缓解措施、性能提升和多种其它服务，因此 Cloudflare 网络中断通常会对整个互联网造成巨大影响。

Cloudflare 称，这起事故暴露了它测试的不充分，他们将检查和修改测试流程，避免以后发生类似的事故。

来源：云有料

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

Cloudflare宕机导致全球大瘫痪，官方回应系软件部署不当

相关推荐