亚马逊云端运算服务(Amazon Web Services,
AWS)今天度过了糟糕的一天——另一家美国大型科技公司全球连通云(Cloudflare)的执行长如此形容。
他语气中显然带着松了一口气的感觉,因为今天这场影响超过1,000家企业、波及数百万网路用户的大规模当机事件,与他们毫无关系。
这次当机影响的范围相当广泛。社交媒体平台如Snapchat和Reddit、银行如劳合社(Lloyds)与哈利法克斯(Halifax)、以及游戏平台如Roblox和Fortnite都受到波及。
AWS是一家在全球具有庞大影响力的美国科技巨头,它几乎成了整个网路的“骨干”。
它提供让网路运作所需的工具与运算能力,支撑了大约三分之一的网际网路;同时也提供储存空间、资料库管理等服务,让企业无需自行维护昂贵的IT系统,还能协助将网路流量导向这些平台。
这正是AWS的行销主轴:让我们帮你处理企业的运算需求。
但今天,一件看似平常的小事出了大问题——一种称为“网域域名系统(Domain Name System,
DNS)错误”常见的网路故障出现了。
对科技业的人来说,这听起来再熟悉不过。
这类错误虽常见,却能造成严重混乱。
“永远是DNS出问题!”——这句话在科技圈里屡见不鲜。
当有人打开应用程式或点击连结时,他的装置其实是在发出连线请求,希望能与那个服务建立连线。
DNS就像一张地图,但今天AWS的“方向感”失灵了——像Snapchat、Canva、英国税务海关总署(HMRC)等平台依然在线上,但系统却无法找到它们的“座标”,也就无法把流量导过去。
为什么影响这么大?
这类错误可能由多种原因造成。
一般来说,是维护问题或伺服器故障。有时则是人为失误——某个设定被误改;极端情况下,也可能是网络攻击所致——不过目前没有任何证据显示这次属于网络攻击。
AWS表示,问题发生在位于美国维吉尼亚州北部的庞大资料中心,那是该公司历史最悠久、规模最大的机房之一。
许多专家一致指出,这起事件正是“把所有鸡蛋放在同一个篮子里”风险的典型案例——AWS规模庞大,全球上百万家企业都仰赖它。
他们的观点没错,但问题在于:能够提供与AWS相同规模服务的公司实在屈指可数。
事实上,全球只有两个主要竞争对手:同样来自美国的微软Azure以及Google云端平台。
其他规模较小的竞争者包括IBM,以及中国的阿里巴巴。超市品牌Lidl的母公司去年也推出了一个名为Stackit的欧洲云端平台,直接对标亚马逊。
然而,AWS仍然是这个领域的绝对领导者,遥遥领先其他对手。
有人主张,英国与欧洲必须加快脚步建立自己的云端基础设施,减少对美国服务的依赖——也有人认为现在为时已晚。
一位政府内部人士曾告诉我,有国会议员非正式地提议打造一个“英国版AWS”。
但有人回应说:“有什么意义?我们已经有AWS啊,就在那边。”
或许,像今天这样的事件再次提醒我们——事情并没那么简单。