État des infrastructures

Panne de service

9h58 : Update routinier de LOKI (kubernetes). La mise-à-jour ne s’effectue pas correctement. <br><br> 10h : Constat de panne SAAQ et début de diagnostic <br><br> Hypothèse #1 : l’update de loki empèche le bon fonctionnement du site. Hypothèse mise de côté, aucun log ne porte à croire que ce serait la nature de la problématique, malgré le ‘timing’.<br><br> 10h04 : Réception d’appel Yvon Parent. Hypothèse #2 : Problématiques de Firewalls.<br><br> 10h10-10h25 : tests de communications de la machine virtuelle et des différents composants du site web. Tests non concluent, tout semble fonctionner correctement.<br><br> Hypothèse #3 : Le deamon docker ne fonctionne plus correctement.<br><br> 10h25-10h45 : update de docker-ce et de différents deamon et validation de logs. Non concluent, la mise à jour ne semble pas avoir changé le statut de la panne et le système ne semblait pas s’être mis à jour automatiquement avant l’intervention. <br><br> Hypothèse #4 : Le compilateur docker-compose cause un bug inconnu pour l’instant.<br><br> 10h45-11h05 : Mise-à-jour de docker compose vers la version 2, et apporte La Société à la dernière version disponible, mais malheureusement ceci ne semble pas résoudre la problématique.<br><br> Hypothèse #5 : Durant la mise à jours de docker compose, une erreur 503 de loki est décelée bien que l’assomption courante est d’ignorer. Ceci dit le manque d’hypothèse à ce moment et le timing du début de la panne nous poussent à poursuivre cette piste. <br><br> 11h05-11h15 : Retrait de la dépendance loki des services du site.<br><br> 11h15 : Le service est de retour sans la dépendance loki.<br><br> 11h19 : Fin de l’appel téléphonique client.<br><br> <strong>Solution long terme : Retrait de la dépendance loki du deamon docker et mise en place d’un lien système indépendant. REF : https://github.com/grafana/loki/issues/2361</strong>

Date de début

10 mai 2022

à 09:58

Date de fin

10 mai 2022

à 11:19

Action pour résoudre

Retrait temporaire de la dépendance Loki. La solution à long-terme sera le retrait de la dépendance Loki du deamon docker et mise en place d’un système indépendant. REF : https://github.com/grafana/loki/issues/2361 <br><br> Ticket lié : https://libeocom.atlassian.net/servicedesk/customer/portal/15/LBOSDSA-800

Temps total

1 heure 21 minutes