网络配置错误致Cloudflare大规模宕机

ang010ela 新闻 2022-06-24 12:00:00

141783

导语：产生大规模宕机的原因是旨在提供网络弹性的MCP架构配置更新导致的。

网络配置错误致Cloudflare大规模宕机。

Cloudflare 是一个全球性的云平台，为世界各地的各种规模的企业提供广泛的网络服务，从而使企业更加安全，同时提高其关键互联网资产的性能和可靠性。

6月21日，Cloudflare称其遭遇了大规模宕机，影响19个数据中心和上百个主要的在线平台和服务。而产生大规模宕机的原因是旨在提供网络弹性的MCP架构配置更新导致的。

根据用户报告，受影响的网站和服务包括但不限于亚马逊、Twitch、亚马逊web服务、Steam、Coinbase、Telegram、Discord、DoorDash、Gitlab等。

Cloudflare调查显示，UTC时间6点34分接到用户报告称到Cloudflare网络的连接中断。受影响区域的用户尝试连接到Cloudflare站点时会显示500错误。

大规模宕机事件影响所有的Data Plane Service（数据平面服务）

随后，Cloudflare官方发布了事件的调查报告，称宕机是由于一个长期运行的项目的一部分变化导致，该项目旨在增加繁忙地区网络的弹性。时间轴如下：

3点56分（UTC时间），Cloudflare对第一个位置进行了网络配置更改。使用老版本架构的地区不受到该配置变更的影响，因为Cloudflare服务不受到影响。

6点17分（UTC时间），Cloudflare 将对其他一个繁忙区域进行了配置变更，并非使用MCP架构的区域。

6点27分（UTC时间），MCP架构的位置配置变更。随后Cloudflare相关服务开始宕机，19个数据中心下线。

6点32分（UTC时间），Cloudflare内部发现该事件。

6点51分（UTC时间），Cloudflare开始在路由器上进行测试，验证事件起因。

6点58分（UTC时间），Cloudflare发现事件根本原因，开始解决这一问题。第一个数据中心上线，恢复运行。

7点42分（UTC时间），全部数据中心恢复正常运行，所有问题全部解决。

Cloudflare outage impact

Cloudflare大规模宕机的影响

受影响的位置约占Cloudflare全部网络的4%，宕机影响Cloudflare处理HTTP请求的大约50%。

受影响的数据中心包括阿姆斯特丹、亚特兰大、阿什本、芝加哥、法兰克福、伦敦、洛杉矶、马德里、曼彻斯特、迈阿密、米兰、孟买、纽瓦克、大阪、圣保罗、圣何塞、新加坡、悉尼和东京。

本文翻译自：https://www.bleepingcomputer.com/news/technology/massive-cloudflare-outage-caused-by-network-configuration-error/如若转载，请注明原文地址

感谢您的支持，我会继续努力的!

打开微信扫一扫后点击右上角即可分享哟