Postmortem #2 - Incident du Mardi 12 Octobre matin

pierreok · Octobre 13, 2021, 2:09

Résumé

Nous avons un serveur appelé k qui sert à héberger certaines applications que nous n’avons pas encore migrées sur notre cluster et il sert aussi de serveur de sauvegarde.
Ce matin ses disques durs sont arrivés à 100% d’espace utilisé. Cela a eu pour conséquence directe de faire tomber les applications hébergées sur ce serveur et indirectement cela a ralentie d’autres applications dont le processus de sauvegarde dysfonctionnait.

Durées

Start Time		Incident Detected By(User-reported/ Ad-hoc monitoring/ Alerting system)
Detection Time	12/10 3h05	Time to Detect (TTD)	1 minute par UptimeRobot
Mitigation Time	12/10 9h30	Time to Mitigate (TTM)	3h25
Resolution Time	12/10 9h49	Time to Resolve (TTR)	3h44

Chronologie

Date/Time	Who/What	Action/ Impact
8h08	Hugo voit un problème (OOM - Out Of Memory) sur le cluster Louise Michel	-
9h23	Hugo voit que c’est en fait le disk du serveur k qui est full et que le OOM n’est qu’une conséquence
9h30	Pierre vient aider à faire de la place sur le serveur k	Certains services repartent
9h46	-	Tous les services sont de nouveaux opérationnels

Impact

Impact sur les utilisateurices

6 Services (moajoritairement les forums) étaient complètement innaccessibles.

Impact sur l’infrastructure

Le dump des base de données des services du cluster principal n’ont pas fonctionné cette nuit.

Cause de l’incident?

Déclencheur(s)

Les données se sont accumulées sur ce serveur.

Source de l’incident

Le disque du serveur k était plein.

Mitigation & Résolution

Nettoyage du serveur à la main après la prise de connaissance de l’incident

Lessons apprises

Il faut nettoyer le serveur
Il faut mettre une alarme avant d’avoir un incident

Ce qui s’est bien passé

Une fois l’incident bien identifié, la résolution est intervenue rapidement.

Ce qui s’est mal passé

Nous avons pris du temps à identifier la source de l’incident, car cet incident avait des effets de bords.

Nous avons été chanceux-ses

Car les disks des base de données étaient aussi en train de se remplir car le serveur de backup (k) était plus disponible.

Actions

Action Item	Type (Mitigate/ Prevent/ Process/ Other)	Priority	Bug #
Ajouter le server k au prometheus de LouiseMichel	Prevent	High	#316
Mettre une alerte sur la projection du disque plein dans la semaine	Prevent	High	#317
Automatiser la suppression de la corbeille	Mitigate	Low	#318
Script pour nettoyer les anciens dumps de LouiseMichel	Mitigate	Low	#319

Maroin · Octobre 13, 2021, 2:21

Je crois qu’en terme de transparence on peut pas aller plus loin !