Facebook遭遇史上最严重的宕机，刷新了自 2008 年以来的最长宕机时长

扎克伯格个人财富一日蒸发逾 60 亿美元。

在被指控“从放大仇恨言论的算法中获利”后不久，Facebook再次陷入危机。

美国东部时间10月4日上午11时39分左右，美国社交媒体Facebook、instagram和即时通讯软件WhatsApp经历了大规模宕机，持续了近7个小时，刷新了Facebook自2008年以来最长的宕机时间。

对美国互联网监测网站downdecotors的监测显示，Facebook在欧洲、美洲和大洋洲几乎完全离线，在日本、韩国、印度和亚洲其他国家无法访问。据报道，“微信”即时通讯产品WhatsApp和Facebook Messenger在全球分别拥有20亿和13亿用户，社交平台instagram的用户数量也达到了10亿。

除了给数十亿用户带来麻烦外，Facebook的服务中断还阻止了其员工使用内部工具进行沟通。Facebook的电子邮件和工具由企业内部管理，许多Facebook员工无**常工作。

Facebook首席技术官迈克·施罗普弗（Mike Schroepfer）在推特上道歉

一条指令引发的“血案”

Facebook表示，故障的根本原因是日常维护工作发出的错误命令，导致其DNS服务器无法使用，并切断了Facebook整个主干网络与数据中心之间的连接。

所谓的主干网是Facebook为所有计算设施建立的全球连接网络。它由数万英里长的光缆组成，横跨世界各地，连接着世界各地的数据中心。Facebook infrastructure副总裁Santosh Janardhan在文章中解释说，数据中心主要有两种形式：一种是“巨大的建筑物”，存储数百万数据存储和高强度计算负载运行设备，另一个是一个小设备，通过bone stem网络连接到整个互联网，构建Facebook社交平台的各个方面。

当用户打开应用程序并加载摘要或消息时，应用程序提出的数据请求将从当前设备传输到最近的设施，然后通过主干网直接与较大的数据中心通信。应用程序所需的信息将在这些数据中心检索和处理，然后结果将通过网络发送回用户的手机。

维护基础设施的日常工作非常繁重。工程师通常需要离线维护主干网的一部分，包括修复光纤线路、扩展容量或更新路由器自己的软件。这也是停电的原因。

Janardhan说，在一次例行维护工作中，工程师发布了评估全球主干网容量可用性的指示，但意外地切断了主干网中的所有连接，这实质上是Facebook全球数据中心之间的断开连接。不幸的是，Facebook的系统旨在审查此类指令以防止出错，但其功能是发送错误提示，并不能真正阻止指令的执行。

这起事故导致Facebook数据中心与互联网之间的服务器连接完全断开，带来了一系列连锁效应，进一步恶化了局面。

在此停机事件中，由于整个主干网已瘫痪，每个DNS服务器位置都报告了连接状态问题，并撤消了边界**协议（BGP）通知。最终的结果是，尽管Facebook的DNS服务器仍在运行，但无**常访问，因此其他互联网用户无**常访问其服务器。

响应DNS查询是小设施的一项重要任务。DNS可以称为Internet的地址簿，它可以将用户在浏览器中输入的简单网络名称转换为特定的服务器IP地址。这些翻译查询由Facebook的权威名称服务器回答，这些服务器本身占据着最知名的IP地址。接下来，这些服务器通过边界**协议（BGP）向互联网的其余部分发出通知。为确保操作可靠性，如果DNS服务器本身无法与数据中心通信，则将禁用所有BGP公告，表明当前网络连接状态不正确。

简而言之，Facebook拿走了告诉世界计算机如何找到各种在线资产的地图。因此，在web浏览器中键入facebook.com时，浏览器不知道在哪里可以找到facebook.com，因此返回错误页面。

为什么无法及时修复

为什么故障持续了近七个小时？

Janardhan说，工程师们在修复这一故障时面临两大障碍：第一，由于主干网出现故障，Facebook工程师无法以正常方式访问他们的Facebook数据中心；其次，DNS没有响应，使得Facebook无法使用常规的内部工具来调查和解决停机问题。

主干网和带外网络访问均失败，这意味着工程师只能到现场调试并尝试重新启动系统。但这需要时间，因为各地的设施都遵循高水平的物理和系统安全策略。

不正确的更新会阻止Facebook员工恢复和更改系统，他们中的大多数人都在远程工作。与此同时，那些能够实际访问Facebook大楼的人无法访问Facebook的内部工具。

“任何人员都很难进入，一旦他们进入并获得物理访问能力，这些硬件和路由器的设计也很难修改。因此，需要更多的时间引导工程师进入机房，并为他们提供在服务器上工作所需的安全访问协议。只有在这种情况下Janardhan写道：“我们可以确认问题并使主干恢复在线。”。

Facebook遭遇史上最严重的宕机，刷新了自 2008 年以来的最长宕机时长1

一些专家估计，Facebook、instagram和WhatsApp全球服务中断一小时将给全球经济造成1.6亿美元的损失。与此同时，Facebook的股价当天暴跌6%，扎克伯格的个人财富每天蒸发60多亿美元。

每天晚上都下雨。在Facebook全球网络服务中断期间，据说黑客论坛出售了超过15亿Facebook用户的数据。但Facebook否认用户数据泄露与服务中断有关。

Janardhan说：“我们想澄清的是，这次停机背后没有恶意活动。根本原因是我们方面错误的配置更改。我们也没有证据表明用户数据因这次停机而受损。”。

架构缺陷

东部时间下午6:33，Facebook在推特上宣布其应用程序和服务已开始恢复运营。恢复每个数据中心区域的主干网连接后，一切都将恢复。但问题并没有真正结束。

同时重启所有服务将带来新的隐患，因为流量激增可能导致新一轮的崩溃。个别数据中心还报告说，由于停机，设施的功耗减少了数十兆瓦，发射带来的功耗突然激增可能会对各种设备（如电气系统和缓存）产生意外影响。

Janardhan表示，尽管Facebook一直在进行“风暴”演习，让服务、数据中心甚至整个地区离线，并对所有相关的基础设施和软件进行压力测试，以模拟重大系统故障，但它没有实践全球主干网的离线情况，并将在未来找到可行的解决办法。

Cisco千家万户产品营销总监Angelique Medina负责监控互联网流量和故障，她表示，这起事件暴露了Facebook架构的一个缺点：如果出现DNS故障，并且没有备份DNS，则可能会出现长期故障，“因此我认为这起事件的一个重要教训是使用冗余DNS。”

Medina说，一个更健壮的体系结构将具有双DNS服务，因此一个DNS服务可以支持另一个DNS服务。例如，根据Medina的说法，Amazon（其AWS提供DNS服务）的DNS使用两种外部服务：dyn和ultradns。

与此同时，此次断电也使Facebook在反垄断调查中的情况更加糟糕。

美国众议院议员亚历山德里亚·奥卡西奥·科尔特斯（Alexandria ocasio Cortez）表示，Facebook的大规模宕机凸显了该公司在全球通信和其他服务领域的垄断地位。在推特上，该公司表示，周一Facebook的大规模关闭提醒人们该公司垄断了全球通信和其他服务，并再次表明Facebook应该被拆分。

温馨提示：

文章标题：Facebook遭遇史上最严重的宕机，刷新了自 2008 年以来的最长宕机时长

文章链接：https://www.btchangqing.cn/324905.html

更新时间：2021年10月09日

本站大部分内容均收集于网络，若内容若侵犯到您的权益，请联系我们，我们将第一时间处理。

Facebook遭遇史上最严重的宕机，刷新了自 2008 年以来的最长宕机时长

虚拟货币征税现状：漏报、瞒报等“避税”手段层出不穷

以太坊桥的增长：四个月从80亿美元到180亿美元

加密货币市场崩盘：比特币、以太坊和 XRP 价格为何今日下跌

XRP ETP流入2500万美元，比特币和以太坊导致14.3亿美元资金外流

HBAR价格有望突破0.30美元：分析师预测2025年将出现大幅上涨

数字货币市场低迷，柴犬买家进场，市场即将反弹吗？

随着加密货币市值暴跌，人们对以太坊取消质押的担忧加剧