El-fel i serverhallen idag.

Tyvärr är det en stor del av jobbet att hantera även kriser så som när saker och ting går ner. Man måste snabbt hitta en balans mellan att hantera nervösa och stressade kunder och att åtgärda, ta reda på vad problemet är. Detta innebär ibland att själv vara den besvärliga kunden som ringer och stör i det akuta arbetet för att få mer information om vad som händer till de egna kunderna.

Idag hade vi ett elfel som slog ut trafiken i en av våra serverhallar, tydligen så var där en brand som slog ut en kabel som satt efter både generator och ups:er. Detta innebar att en av faserna slogs ut och fick inte tillgång till reservström.

Hade vi fått klarare information i detta fallet om vad felet var så hade vi kunnat växla om de saker som satt på den felande fasen till den som fungerade. Detta innefattade tyvärr idag vår primära switch. Resultatet blev att allting var nere i två timmar istället för kanske en halv till en timme om vi fått reda på problemets omfattning tidigare. Men jag inser också problemet i att dra slutsatser för tidigt, och att få fram en statusrapport är inte alltid prioriterat.

Nu funderar jag på hur man skulle kunna hindra detta i framtiden, det förefaller alltid finnas någonting som blir en ”single point of failure” I detta fall då en strömkabel som brann. Om jag skulle sätta in en UPS till switcharna så hade den blivit den svaga länken. Switcharna är i princip det enda som inte har redundanta strömkällor. Det är klart bra att servrarna inte stängs ned oväntat i dessa fallen men samtidigt är det ju bättre om de har internet och nät access. Nu håller jag på att kolla upp vad det fins för switchar i vettiga prisklasser som har dubbla strömaggregat. Det återstår att se hur jag löser det :)

Det är tråkigt, vi har lagt mycket pengar på att få det redundant och jag vet att Bjärekraft som jag hyr datorskåp av har gjort mycket för att redundansen skall vara riktigt bra i denna serverhallen.

Artikel i HD

Full /boot partition problem i Turnkey för Joomla

En av mina kunder fick lite problem på en TurnKey joomla maskin idag, vilket var för att /boot var full. Detta innebar att när han försökte uppgradera systemet så kunde det inte slutföras och när han sedan körde purge så förvärrades situationen.

Följande fel visade sig när man körde dist-upgrade:

#apt-get dist-upgrade

Reading package lists… Done
Building dependency tree
Reading state information… Done
You might want to run ‘apt-get -f install’ to correct these.
The following packages have unmet dependencies:
linux-image-generic : Depends: linux-image-3.2.0-67-generic but it is not installed
E: Unmet dependencies. Try using -f.

 

För att få loss utrymme i /boot partitionen och för att fixa problemet så körde jag följande kommando för var gammal kernel som inte användes längre.

apt-get remove linux-image-2.6.32-38-generic

För att installera om kernel som inte blev fullt installerad körde jag följande.

apt-get install -f linux-image-2.6.32-67-generic