Parce qu’il a fallu 7 heures à Facebook pour corriger une panne gérable en quelques minutes

Parce Qu'il A Fallu 7 Heures à Facebook Pour Corriger

Les problèmes avec les applications de la multinationale ont duré 7 heures malgré le fait que la cause – comme l’a déclaré l’entreprise elle-même – était une erreur de configuration somme toute banale. Voici donc comment un problème à petite échelle pourrait dégénérer en une catastrophe coûtant à Facebook des milliards de dollars et aux économies du monde entier des centaines de millions.

Le black-out de Facebook qui s’est produit hier soir a certainement représenté un inconvénient et un préjudice économique pour des millions d’utilisateurs du réseau social, Instagram et WhatsApp ; pour les employés de l’entreprise, cependant, ces moments étaient un véritable cauchemar. Les problèmes avec les applications de la multinationale ont duré 7 très longues heures malgré la cause – comme l’a déclaré la société elle-même – était une erreur de configuration somme toute insignifiante. Voici donc comment un problème à petite échelle pourrait dégénérer en une catastrophe coûtant à Facebook des milliards de dollars et aux économies du monde entier des centaines de millions.

Pourquoi les applications Facebook se sont déconnectées

Pour Facebook, la cause du problème ressenti par des centaines de millions de personnes dans le monde était un « changement de configuration sur les routeurs backbone qui coordonnent le trafic réseau entre les centres de données » – un changement qui, en raison d’une erreur inattendue, a interrompu la communication entre ces derniers. les articulations. Les serveurs qui contiennent les données Facebook ne sont pas tous au même endroit ; les garder connectés est un réseau interne qui doit être soigneusement configuré, mais la dernière de ces mises à jour a mal tourné, provoquant des effets que Facebook décrit comme « en cascade » sur tous les services du groupe.

La société américaine CloudFlare – qui s’occupe des réseaux de diffusion de contenu et qui a été la première à pouvoir décrire ce qui se passait au sein du réseau social – devait approfondir la discussion. Selon CloudFlare, les changements de configuration évoqués par Facebook concernent les tables BGP, ou protocole de passerelle plus large : ce sont des cartes qui définissent le chemin que doivent suivre les données au sein du réseau Facebook pour atteindre la destination souhaitée. L’erreur aurait conduit à l’annulation des tables, avec un effet paradoxal : alors que Facebook et ses services annexes restaient correctement en ligne, les communications qui arrivaient aux serveurs du groupe finissaient par se perdre faute de chemin à suivre.

Pourquoi WhatsApp, Instagram et Facebook ne fonctionnent pas : c’est à qui la faute

Parce que la panne a duré si longtemps

Ce n’est donc pas seulement Facebook qui a disparu de la face d’Internet, mais aussi tous les produits et services qui s’appuient sur les serveurs de la maison Menlo Park. Cet ensemble – en plus d’Instagram et de WhatsApp – comprend également tous les outils que les employés du groupe utilisent pour communiquer entre eux, configurer les systèmes informatiques à distance et résoudre les éventuels problèmes. Bref, une fois la mauvaise configuration propagée, les employés se sont retrouvés enfermés hors de la plateforme et de ses panneaux de contrôle ; incapable de coordonner et même de comprendre précisément ce qui n’allait pas.

Chez The Verge, certains employés ont admis qu’ils avaient repris la communication par e-mail et que même des outils externes tels que Google Docs et Zoom étaient bloqués pour quiconque devait se ré-authentifier avec l’e-mail professionnel fourni par Facebook. Alors que les utilisateurs se tournaient vers Twitter et Telegram pour rester en contact, les employés de Facebook ont ​​abandonné de force les outils internes de Workplace pour se rabattre sur Discord et FaceTime.

Physiquement verrouillé

Les problèmes se sont également étendus au monde physique. Une source a déclaré au New York Times que les employés du groupe n’étaient même pas en mesure d’entrer dans les bâtiments de l’entreprise pour évaluer les dégâts, car leurs badges ne pouvaient pas déverrouiller les portes d’entrée. Un utilisateur de Reddit qui a ensuite supprimé son compte a rendu compte de la situation de manière générale, affirmant que le problème des mauvaises cartes ne fonctionnant pas contribuait à ralentir la solution du black-out : « Il y a des employés qui essaient d’accéder aux terminaux sur lesquels il se trouve. nécessaire. intervenir », a déclaré le témoin anonyme sur Reddit. « Pour le moment, cependant, ceux qui ont un accès physique aux structures ne sauraient pas comment s’authentifier auprès des systèmes ou quoi faire une fois à l’intérieur ».