Postmortem #2 - Incident du Mardi 12 Octobre matin

Résumé

Nous avons un serveur appelé k qui sert à héberger certaines applications que nous n’avons pas encore migrées sur notre cluster et il sert aussi de serveur de sauvegarde.
Ce matin ses disques durs sont arrivés à 100% d’espace utilisé. Cela a eu pour conséquence directe de faire tomber les applications hébergées sur ce serveur et indirectement cela a ralentie d’autres applications dont le processus de sauvegarde dysfonctionnait.

Durées

Start Time Incident Detected By(User-reported/ Ad-hoc monitoring/ Alerting system)
Detection Time 12/10 3h05 Time to Detect (TTD) 1 minute par UptimeRobot
Mitigation Time 12/10 9h30 Time to Mitigate (TTM) 3h25
Resolution Time 12/10 9h49 Time to Resolve (TTR) 3h44

Chronologie

Date/Time Who/What Action/ Impact
8h08 Hugo voit un problème (OOM - Out Of Memory) sur le cluster Louise Michel -
9h23 Hugo voit que c’est en fait le disk du serveur k qui est full et que le OOM n’est qu’une conséquence
9h30 Pierre vient aider à faire de la place sur le serveur k Certains services repartent
9h46 - Tous les services sont de nouveaux opérationnels

Impact

Impact sur les utilisateurices

6 Services (moajoritairement les forums) étaient complètement innaccessibles.

Impact sur l’infrastructure

Le dump des base de données des services du cluster principal n’ont pas fonctionné cette nuit.

Cause de l’incident?

Déclencheur(s)

Les données se sont accumulées sur ce serveur.

Source de l’incident

Le disque du serveur k était plein.

Mitigation & Résolution

  • Nettoyage du serveur à la main après la prise de connaissance de l’incident

Lessons apprises

  • Il faut nettoyer le serveur
  • Il faut mettre une alarme avant d’avoir un incident

Ce qui s’est bien passé

Une fois l’incident bien identifié, la résolution est intervenue rapidement.

Ce qui s’est mal passé

Nous avons pris du temps à identifier la source de l’incident, car cet incident avait des effets de bords.

Nous avons été chanceux-ses

Car les disks des base de données étaient aussi en train de se remplir car le serveur de backup (k) était plus disponible.

Actions

Action Item Type (Mitigate/ Prevent/ Process/ Other) Priority Bug #
Ajouter le server k au prometheus de LouiseMichel Prevent High #316
Mettre une alerte sur la projection du disque plein dans la semaine Prevent High #317
Automatiser la suppression de la corbeille Mitigate Low #318
Script pour nettoyer les anciens dumps de LouiseMichel Mitigate Low #319
2 J'aime

Je crois qu’en terme de transparence on peut pas aller plus loin ! :smiley: