Gå til hovedinnhold
Alle samlinger⏳ Status-beskjeder
Postmortem - Nedetid Accountflow 12.04.2023
Postmortem - Nedetid Accountflow 12.04.2023
Sebastian Jara avatar
Skrevet av Sebastian Jara
Oppdatert for over et år siden

Kjære Accountflow-brukere,

Den 12. april 2023 opplevde vi nedetid på grunn av et utgått sikkerhetssertifikat. Problemet rammet applikasjonens primære produksjonsinfrastruktur i nesten 12 timer.

Under oppsummerer vi kort en forenklet tidsplan over hendelsene og trinnene vi tok for å løse problemet.

Tidsline - 12. april 2023

  • Kl. 03.00: Vår daglige vedlikeholdsrutine startet, og en feil oppsto.

  • Kl. 08.30: Vårt team ble klar over problemet og begynte å undersøke årsaken.

  • Kl. 09.00: Vi startet opp tjenestene og oppdaget det utgåtte sikkerhetssertifikatet.

  • Kl. 10.00: Vi gjorde infrastrukturjusteringer, økte lagring og antall noder.

  • Kl. 10.30: Utviklerne ble delt inn i to team. Et fokuserte på å fikse problemet i det opprinnelige miljøet, og det andre begynte å bygge et nytt produksjonsmiljø. Vi kunne ikke effektivt nok berge det opprinnelige miljøet.

  • Kl. 14.00: Vi hadde et nytt produksjonsmiljø klart og migrerte tjenestene dit.

  • Kl. 15.00: Accountflow var tilbake på nett.

Kort etter møtte vi dessverre på nok et problem. Det var relatert til en balanseoppdatering for kunder som bruker Xledger.

  • Kl 21.00 (12. april): Vi implementerte en hurtigfiks, men dette forårsaket at databasen ikke lenger fungerte som den burde.

  • Kl 10.00 (13. april): Problemet ble løst, og Accountflow var fullstendig operativ igjen.

Alt i alt sitter vi igjen med verdifull lærdom fra disse dagene. Vi har tiltak klare for å forhindre lignende hendelser i fremtiden.

Vår kjernekonfigurasjon er nå mer strømlinjeformet og kan fremskynde gjenoppbyggingsprosesser.

Vi fikk en bekreftelse på fordelen med å ha en high-availablity database utenfor clusteret. Dette bidro til å bevare kundedata under nedetiden.

Vi beholder det opprinnelige produksjonsclusteret for videre feilsøking og for å få en dypere forståelse av vår teknologistack. Slik er vi bedre forberedt på potensielle fremtidige problemer av denne typen.

Vi beklager ulempene forårsaket av disse hendelsene, og setter pris på tålmodigheten og forståelsen dere viser oss.

Beste hilsener,

Accountflow-teamet.

Svarte dette på spørsmålet?