El-fel i serverhallen idag.

Tyvärr är det en stor del av jobbet att hantera även kriser så som när saker och ting går ner. Man måste snabbt hitta en balans mellan att hantera nervösa och stressade kunder och att åtgärda, ta reda på vad problemet är. Detta innebär ibland att själv vara den besvärliga kunden som ringer och stör i det akuta arbetet för att få mer information om vad som händer till de egna kunderna.

Idag hade vi ett elfel som slog ut trafiken i en av våra serverhallar, tydligen så var där en brand som slog ut en kabel som satt efter både generator och ups:er. Detta innebar att en av faserna slogs ut och fick inte tillgång till reservström.

Hade vi fått klarare information i detta fallet om vad felet var så hade vi kunnat växla om de saker som satt på den felande fasen till den som fungerade. Detta innefattade tyvärr idag vår primära switch. Resultatet blev att allting var nere i två timmar istället för kanske en halv till en timme om vi fått reda på problemets omfattning tidigare. Men jag inser också problemet i att dra slutsatser för tidigt, och att få fram en statusrapport är inte alltid prioriterat.

Nu funderar jag på hur man skulle kunna hindra detta i framtiden, det förefaller alltid finnas någonting som blir en ”single point of failure” I detta fall då en strömkabel som brann. Om jag skulle sätta in en UPS till switcharna så hade den blivit den svaga länken. Switcharna är i princip det enda som inte har redundanta strömkällor. Det är klart bra att servrarna inte stängs ned oväntat i dessa fallen men samtidigt är det ju bättre om de har internet och nät access. Nu håller jag på att kolla upp vad det fins för switchar i vettiga prisklasser som har dubbla strömaggregat. Det återstår att se hur jag löser det :)

Det är tråkigt, vi har lagt mycket pengar på att få det redundant och jag vet att Bjärekraft som jag hyr datorskåp av har gjort mycket för att redundansen skall vara riktigt bra i denna serverhallen.

Artikel i HD