亚马逊云端当机的原因是什么?为什么整个网路几乎瘫痪?

亚马逊云端运算服务（Amazon Web Services,
AWS）今天度过了糟糕的一天——另一家美国大型科技公司全球连通云（Cloudflare）的执行长如此形容。

他语气中显然带着松了一口气的感觉，因为今天这场影响超过1,000家企业、波及数百万网路用户的大规模当机事件，与他们毫无关系。

这次当机影响的范围相当广泛。社交媒体平台如Snapchat和Reddit、银行如劳合社（Lloyds）与哈利法克斯（Halifax）、以及游戏平台如Roblox和Fortnite都受到波及。

AWS是一家在全球具有庞大影响力的美国科技巨头，它几乎成了整个网路的“骨干”。

它提供让网路运作所需的工具与运算能力，支撑了大约三分之一的网际网路；同时也提供储存空间、资料库管理等服务，让企业无需自行维护昂贵的IT系统，还能协助将网路流量导向这些平台。

这正是AWS的行销主轴：让我们帮你处理企业的运算需求。

但今天，一件看似平常的小事出了大问题——一种称为“网域域名系统（Domain Name System,
DNS）错误”常见的网路故障出现了。

对科技业的人来说，这听起来再熟悉不过。

这类错误虽常见，却能造成严重混乱。

“永远是DNS出问题！”——这句话在科技圈里屡见不鲜。

当有人打开应用程式或点击连结时，他的装置其实是在发出连线请求，希望能与那个服务建立连线。

DNS就像一张地图，但今天AWS的“方向感”失灵了——像Snapchat、Canva、英国税务海关总署（HMRC）等平台依然在线上，但系统却无法找到它们的“座标”，也就无法把流量导过去。

为什么影响这么大？

这类错误可能由多种原因造成。

一般来说，是维护问题或伺服器故障。有时则是人为失误——某个设定被误改；极端情况下，也可能是网络攻击所致——不过目前没有任何证据显示这次属于网络攻击。

AWS表示，问题发生在位于美国维吉尼亚州北部的庞大资料中心，那是该公司历史最悠久、规模最大的机房之一。

许多专家一致指出，这起事件正是“把所有鸡蛋放在同一个篮子里”风险的典型案例——AWS规模庞大，全球上百万家企业都仰赖它。

他们的观点没错，但问题在于：能够提供与AWS相同规模服务的公司实在屈指可数。

事实上，全球只有两个主要竞争对手：同样来自美国的微软Azure以及Google云端平台。

其他规模较小的竞争者包括IBM，以及中国的阿里巴巴。超市品牌Lidl的母公司去年也推出了一个名为Stackit的欧洲云端平台，直接对标亚马逊。

然而，AWS仍然是这个领域的绝对领导者，遥遥领先其他对手。

有人主张，英国与欧洲必须加快脚步建立自己的云端基础设施，减少对美国服务的依赖——也有人认为现在为时已晚。

一位政府内部人士曾告诉我，有国会议员非正式地提议打造一个“英国版AWS”。

但有人回应说：“有什么意义？我们已经有AWS啊，就在那边。”

或许，像今天这样的事件再次提醒我们——事情并没那么简单。

🔗 您可能感兴趣的内容: