Postmortem #3 - Incident réseau Mardi 29 Mars à 14h00

Postmortem

Résumé

Le cluster de stockage était indisponible pendant quelques minutes.

Durées

Start Time Incident Detected By(User-reported/ Ad-hoc monitoring/ Alerting system)
Detection Time 14h00 Time to Detect (TTD) Le système d’alerte s’est déclenché instantanément
Resolution Time 14h08 Time to Resolve (TTR) Après l’identification du problème, la résolution a eté immédiate

Chronologie

Date/Time Who/What Action/ Impact
2022 29 03 / 14h00 Alerte sur notre outil Début de l’investigation
14h04 Pierre avec Hugo se rendent compte qu’il y a un problème réseau entre différentes machines Recharge de la config réseau dans un équipement réseau chez notre fournisseur
14h08 Tous les services refonctionnent

Impact

Impact sur les utilisateurices

Pendant l’incident le stockage n’était pas disponible cela veut dire que:

  • les fichiers stockés sur les nuages n’étaient pas disponibles, ni en téléchargement, ni en édition collaborative
  • les images uploadées ou avatar sur le chat ne se chargaient pas
  • les vidéos sur le centre d’aide ou sur le site ne se chargaient pas
  • les images sur les forum ne se chargeaient pas
  • les images sur les pads ne se chargeaient pas

Impact sur l’infrastructure

Aucun

Cause de l’incident?

Problème réseau chez le fournisseur

Mitigation & Résolution

Recharge de la config réseau de cet équipement

Lessons apprises

Ce qui s’est bien passé

L’alerte a bien fonctionné.
Une fois le problème identifié, il a été résolu rapidement.

Ce qui s’est mal passé

NA

Nous avons été chanceux-ses

NA

Actions

C’est lié à cet incident chez notre fournisseur.

Mais nous allons quand même changer l’architecture de notre réseau pour moins dépendre de cette partie de l’infra de notre fournisseur.

Action Item Type (Mitigate/ Prevent/ Process/ Other) Who Priority Bug # Due Date