Kaos i IT-fabriken…

Ibland när datorer är nere så blir folk rätt upprörda. ”Varför är datorerna nere?”, ”Varför är de FORTFARANDE nere?”, ”Vad fan SYSSLAR de med?”. Inatt hände en sån där sak som inte får hända, det blev totaltras i systemet och allting föll samman som ett korthus. Här är lite utdrag ur chatloggen vilket jag hoppas kanske kan få ni som inte är regelbundna besökare i datorhallar att få lite större förståelse för hur slitsamt det kan vara.

(vissa adresser och annan info som kan vara känslig är bortklippt, markerade med[…] som brukligt är)

[2012-10-13 17:44:05] Emelie Skoog: 504 på webbmailen. ;(
[2012-10-13 17:47:15] adbot: **** ALERT **** http://www.piratpartiet.se (ettan) DOWN (5 TRIES)
To retry, write adbot: clearsite http://www.piratpartiet.se
[2012-10-13 17:54:49] Toni ‘CLUEZ’ Cherfan: verkar vara rätt brutala problem med disk IO
[2012-10-13 17:57:52] Toni ‘CLUEZ’ Cherfan: hostarna verkar ha tappat kontakten med lagringsservern
[2012-10-13 17:58:24] XMPP: Kim ”Zash” Alvefur | Värt
[2012-10-13 17:59:05] Emil Isberg: Eh mail-servern startade om…
[2012-10-13 17:59:09] Toni ‘CLUEZ’ Cherfan: ja, mitt fel
[2012-10-13 17:59:12] Emil Isberg: snyft
[2012-10-13 17:59:23] Toni ‘CLUEZ’ Cherfan: hela konsollen var full med timeouts
[2012-10-13 17:59:40] Emil Isberg: Ja misstänkte det… 🙂
[2012-10-13 18:05:48] Toni ‘CLUEZ’ Cherfan: det är mysqlen som är trasig, ska starta om den
[2012-10-13 18:06:35] Toni ‘CLUEZ’ Cherfan: så, nu hoppade saker igång
[2012-10-13 18:07:32] Toni ‘CLUEZ’ Cherfan: och hela kernel-loggen är full med IO-fel på den där arrayen
[2012-10-13 18:07:35] Toni ‘CLUEZ’ Cherfan: jätteroligt.
[2012-10-13 18:08:23] Toni ‘CLUEZ’ Cherfan: nu jävlar måste jag ta mig till […] och jobba (ja, på en lördag), sen måste jag packa och imorgon klockan 6 åker jag till malta. ser ni till att ha fixat in nya diskar tills dess så kan vi slippa det här
[2012-10-13 18:10:49] adbot: **** ALERT **** http://www.piratpartiet.se (ettan) DOWN (5 TRIES)
To retry, write adbot: clearsite http://www.piratpartiet.se
[2012-10-13 18:10:49] adbot: Nu skickar jag SMS till […]
[2012-10-13 18:11:30] Toni ‘CLUEZ’ Cherfan: thank you.
[2012-10-13 18:12:02] Toni ‘CLUEZ’ Cherfan: men gnf.
[2012-10-13 18:12:49] Toni ‘CLUEZ’ Cherfan: jag tror problemet ligger i mysql-diskarna, någon har antagligen fått en trasig sektor och då kommer MD att vänta på den disken vilket orsakar timeouts
[2012-10-13 18:13:05] Toni ‘CLUEZ’ Cherfan: förhoppningsvis markeras den disken som fail och arrayen blir degraded snart
[2012-10-13 19:11:23] qeruiem: [den 13 oktober 2012 18:10] adbot:

<<< Nu skickar jag SMS till […]

Good luck with that.
[2012-10-13 19:16:30] adbot: **** ALERT **** http://www.piratpartiet.se (ettan) DOWN (5 TRIES)
To retry, write adbot: clearsite http://www.piratpartiet.se
[2012-10-13 20:11:44] Plux Stahre: Q: GLHF botjävel liksom 😀
[2012-10-13 20:15:53] adbot: **** ALERT **** http://www.piratpartiet.se (ettan) DOWN (5 TRIES)
To retry, write adbot: clearsite http://www.piratpartiet.se
[2012-10-13 20:30:37] Johan mlg Karlsson: ledning: Vi har serverstrul just nu. Vi misstänker att det är en disk som håller på att dö. Ifall vi har rätt så kommer saker förhoppningsvis att börja fungera bättre igen så fort disken faktiskt dör. Backupplan är att vi har en annan server vi kan byta till, men då det är en del arbete väntar vi helst tills i morgon och ser ifall det reder ut sig självt först.
[2012-10-13 21:15:19] adbot: **** ALERT **** http://www.piratpartiet.se (ettan) DOWN (5 TRIES)
To retry, write adbot: clearsite http://www.piratpartiet.se
[2012-10-13 21:40:29] ppbot: Från Rick Falkvinge i Piratfrågor (pf): Det verkar som om ettan är nere?
[2012-10-13 21:45:09] Toni ‘CLUEZ’ Cherfan: mlg, hur ser det ut för dig med tid? har du möjlighet att hämta upp mig i […] och dra iväg mig till […] för att reboota mysql-servern?
[2012-10-13 21:50:35] Plux Stahre: pf: Diskproblem, jobbas fernetiskt på att lösa det
[2012-10-13 21:51:32] Plux Stahre: pf: Ovanstånde som svar till Rick
[2012-10-13 22:07:49] adbot: **** ALERT **** http://www.piratpartiet.se (ettan) DOWN (5 TRIES)
To retry, write adbot: clearsite http://www.piratpartiet.se
[2012-10-13 22:08:10] Toni ‘CLUEZ’ Cherfan: vi har backup på PW
[2012-10-13 22:09:53] Mikael ”Acwder” Holm: som i från nu eller nu i dagarna?
[2012-10-13 22:10:03] Toni ‘CLUEZ’ Cherfan: för 2 minuter sen
[2012-10-13 22:10:07] Mikael ”Acwder” Holm: (y)
[2012-10-13 22:15:44] Toni ‘CLUEZ’ Cherfan: vi har nu backup på allt utom piratepad
[2012-10-13 22:17:07] Toni ‘CLUEZ’ Cherfan: jag gör ett försök att ta upp allt genom att döda piratepad
[2012-10-13 22:17:20] Toni ‘CLUEZ’ Cherfan: seems to work!
[2012-10-13 22:17:25] Toni ‘CLUEZ’ Cherfan: adbot: clearsite ettan
[2012-10-13 22:17:29] adbot: Site check normal for http://www.piratpartiet.se
[2012-10-13 22:18:38] Toni ‘CLUEZ’ Cherfan: oh yes, oh fucking yes
[2012-10-13 22:18:42] Toni ‘CLUEZ’ Cherfan: load på 1 istället för 4
[2012-10-13 22:19:27] Toni ‘CLUEZ’ Cherfan: ladies, kan vi leva med att piratepad är död ett tag så är problemet löst
[2012-10-13 22:19:37] Toni ‘CLUEZ’ Cherfan: for now
[2012-10-13 22:21:30] adbot: **** ALERT **** https://pirateweb.net/Pages/Public/CheckHeartBeat.ashx (PirateBot) DOWN (5 TRIES)
To retry, write adbot: clearsite https://pirateweb.net/Pages/Public/CheckHeartBeat.ashx
[2012-10-13 22:22:02] Toni ‘CLUEZ’ Cherfan: and fuck you too!
[2012-10-13 22:22:16] XMPP: Kim ”Zash” Alvefur | adbot: STFU
[2012-10-13 22:24:59] Toni ‘CLUEZ’ Cherfan: adbot: clearsite PirateBot
[2012-10-13 22:24:59] adbot: Site check normal for https://pirateweb.net/Pages/Public/CheckHeartBeat.ashx
[2012-10-13 22:30:18] adbot: **** ALERT **** http://piratepad.net/ep/admin/auth (PiratePad) DOWN (5 TRIES)
To retry, write adbot: clearsite http://piratepad.net/ep/admin/auth
[2012-10-13 22:31:41] Toni ‘CLUEZ’ Cherfan: captain obvious, at your service!
[2012-10-13 22:31:45] Toni ‘CLUEZ’ Cherfan: adbot: removesite PiratePad
[2012-10-13 22:31:45] adbot: Removed http://piratepad.net/ep/admin/auth
[2012-10-13 22:36:31] Plux Stahre: Toni: Folk kan ju alltid använda https://pad.plux.se 😉
[2012-10-13 22:36:51] XMPP: Kim ”Zash” Alvefur | Eller någon av alla tusen deployments
[2012-10-13 22:45:24] Johan mlg Karlsson: sorry to say, men det verkar inte som det funkade
[2012-10-13 22:45:25] Johan mlg Karlsson: 😦
[2012-10-13 22:45:42] Toni ‘CLUEZ’ Cherfan: gnf. funkade ett tag
[2012-10-13 22:45:57] Johan mlg Karlsson: Toni: Är frågan ovan fortfarande aktuell?
[2012-10-13 22:46:08] Toni ‘CLUEZ’ Cherfan: jag vet inte.
[2012-10-13 22:46:13] Mikael ”Acwder” Holm: Har ni någon eta på när ni ska trycka in fler diskar?
[2012-10-13 22:46:26] Mikael ”Acwder” Holm: (för det är det som är felet?)
[2012-10-13 22:46:42] Johan mlg Karlsson: nej, just nu är problemet är att en av  dom diskarna som kör sql har kukat ur
[2012-10-13 22:47:02] Johan mlg Karlsson: att kötta in fler diskar löser dock det problemet också iom att då flyttas sqlen till nya diskklustret
[2012-10-13 22:47:59] Toni ‘CLUEZ’ Cherfan: problemet just nu är att jag inte vet om richie har checkat in åt mig hos ryanair
[2012-10-13 22:48:24] Johan mlg Karlsson: kan du inte bara checka in igen –> done?
[2012-10-13 22:48:26] Toni ‘CLUEZ’ Cherfan: om han gör det och jag får nån mat (jag har inte käkat annat än frukost) så kan jag jobba hela natten med det här förutsatt att jag får en timma på mig att packa
[2012-10-13 22:48:49] Johan mlg Karlsson: var är du nu?
[2012-10-13 22:48:54] Toni ‘CLUEZ’ Cherfan: […]
[2012-10-13 22:50:05] Johan mlg Karlsson: som i […]?
[2012-10-13 22:50:50] Toni ‘CLUEZ’ Cherfan: ja, […]
[2012-10-13 22:51:01] Johan mlg Karlsson: när är du klar där?
[2012-10-13 22:53:33] adbot: **** ALERT **** http://www.piratpartiet.se (ettan) DOWN (5 TRIES)
To retry, write adbot: clearsite http://www.piratpartiet.se
[2012-10-13 22:53:33] Toni ‘CLUEZ’ Cherfan: typ nu tror jag
[2012-10-13 22:54:25] Johan mlg Karlsson: okej
[2012-10-13 22:54:30] Johan mlg Karlsson: ja, saker funkar bevisligen inte..
[2012-10-13 22:55:56] Johan mlg Karlsson: ifall vi gör så här;

jag plockar med mig servern, drar förbi donken och fixar mat till dig. under tiden så fixar du något installmedia (antar att du har någon usb-sticka på dig?) och hämtar upp dig så drar vi till portlane och fixar?
[2012-10-13 22:56:57] Toni ‘CLUEZ’ Cherfan: du menar 2950n?
[2012-10-13 22:57:01] Toni ‘CLUEZ’ Cherfan: och nej, jag saknar installmedia
[2012-10-13 22:57:16] Toni ‘CLUEZ’ Cherfan: vi kan dra till mitt jobb och fixa iofs
[2012-10-13 22:57:40] Johan mlg Karlsson: gnf. det är sjukt med jobbigt. ifall jag tar med en cd-skiva eller usb-sticka, kan du fixa relativt enkelt då?
[2012-10-13 22:58:20] Toni ‘CLUEZ’ Cherfan: jag saknar CD-brännare, och USB är lite halvmeckigt
[2012-10-13 22:58:32] Toni ‘CLUEZ’ Cherfan: kan vi slänga upp en centos på den där burken kommer det funka
[2012-10-13 22:58:57] Johan mlg Karlsson: i guess det går. då behöver vi installmedia för det
[2012-10-13 22:59:07] Johan mlg Karlsson: ifall jag tar med ett usb, kan du fixa en sådan?
[2012-10-13 22:59:32] Toni ‘CLUEZ’ Cherfan: gnf. det är inte heller så jävla lätt
[2012-10-13 23:00:38] Plux Stahre: gnf. Synd att ingenting är smidigt någonsin
[2012-10-13 23:00:47] Johan mlg Karlsson: jag tror jag har några ubuntu 10.04-skivor som ligger, men thats about it
[2012-10-13 23:01:27] Johan mlg Karlsson: verkar som jag kan låna cd-brännare av emelie
[2012-10-13 23:01:40] Johan mlg Karlsson: vill vi ha en esxi?
[2012-10-13 23:01:54] Toni ‘CLUEZ’ Cherfan: ja, kan vi få in det vore det bra
[2012-10-13 23:01:56] Toni ‘CLUEZ’ Cherfan: ESXi 5.1
[2012-10-13 23:02:38] Johan mlg Karlsson: var hittar man den?
[2012-10-13 23:03:42] Toni ‘CLUEZ’ Cherfan: gnf. ge mig 10min
[2012-10-13 23:03:49] Johan mlg Karlsson: jag kanske hittar
[2012-10-13 23:04:39] Johan mlg Karlsson: jo, jag har
[2012-10-13 23:05:29] Johan mlg Karlsson: laddar ner, håller på att bränna
[2012-10-13 23:06:13] Toni ‘CLUEZ’ Cherfan: tacka fan
[2012-10-13 23:06:16] Toni ‘CLUEZ’ Cherfan: helvete va skönt
[…]
[2012-10-13 23:08:13] adbot: **** ALERT **** http://www.piratpartiet.se (ettan) DOWN (5 TRIES)
To retry, write adbot: clearsite http://www.piratpartiet.se
[2012-10-13 23:08:13] adbot: Nu skickar jag SMS till […]
[2012-10-13 23:08:27] Toni ‘CLUEZ’ Cherfan: vi ska ha backup på kontoret. så nu kopierar jag backupen till TVÅ jävla ställen för att ha dubbelbackup på backupen
[2012-10-13 23:08:37] Johan mlg Karlsson: (y)
[2012-10-13 23:09:24] Johan mlg Karlsson: så, så här:

Jag tar med esxi, server och mat och hämtar upp dig om ~30 – 40 minuter

Du är här: http://goo.gl/maps/%5B…%5D
[2012-10-13 23:09:26] Johan mlg Karlsson: Right?
[2012-10-13 23:09:38] Toni ‘CLUEZ’ Cherfan: ja, exakt
[2012-10-13 23:10:26] Toni ‘CLUEZ’ Cherfan: also, angående mat tar jag gärna om jag får välja:

1st lilla menyn + extra hamburgare. båda naturella.
1st extra pommes.
Cola.
[2012-10-13 23:11:24] Johan mlg Karlsson: det hade vart enklare om du velat ha 5 cheezburgare, men sure 😀
[2012-10-13 23:11:30] Toni ‘CLUEZ’ Cherfan: 😀
[2012-10-13 23:12:45] Toni ‘CLUEZ’ Cherfan: also, ta med en mobilladdare
[2012-10-13 23:12:54] Toni ‘CLUEZ’ Cherfan: och ring upp richie och be honom checka in åt mig, förklara gärna varför
[2012-10-13 23:13:12] Johan mlg Karlsson: sure
[2012-10-13 23:13:15 | Edited 23:13:23] Plux Stahre: Toni: Smidigt att ha en egen liten betjänt 😀
[2012-10-13 23:13:31] Johan mlg Karlsson: vad har han för nummer?
[2012-10-13 23:13:31] Toni ‘CLUEZ’ Cherfan: plux: this is how i die 😉
[2012-10-13 23:13:35] Toni ‘CLUEZ’ Cherfan: ehm
[2012-10-13 23:13:40] Toni ‘CLUEZ’ Cherfan: jag vet inte. för min mobil är död 😀
[2012-10-13 23:13:48] Toni ‘CLUEZ’ Cherfan: ska kolla på intranätet
[2012-10-13 23:13:51] Johan mlg Karlsson: jag piratewebbar
[2012-10-13 23:14:46] Johan mlg Karlsson: hittat
[2012-10-13 23:15:22] Johan mlg Karlsson: han svarar inte i tele
[2012-10-13 23:15:47] Toni ‘CLUEZ’ Cherfan: fuuu
[2012-10-13 23:17:33] Johan mlg Karlsson: done
[2012-10-13 23:17:43] Johan mlg Karlsson: han var inte jätteroad över att bli väckt dock
[2012-10-13 23:17:52] Johan mlg Karlsson: 06:30 går planet, bilen går två timmar innan det
[2012-10-13 23:20:02] Toni ‘CLUEZ’ Cherfan: ja, har han checkat in mig?
[2012-10-13 23:20:06] Johan mlg Karlsson: yess
[2012-10-13 23:20:09] Toni ‘CLUEZ’ Cherfan: great
[2012-10-13 23:20:33] Johan mlg Karlsson: men yess, jag sticker rfn. är där om 30 – 40 minuter. […] entre, y/n?
[2012-10-13 23:21:32] Toni ‘CLUEZ’ Cherfan: 00 måste jag vara ute härifrån, helst typ då
[2012-10-13 23:21:46] Johan mlg Karlsson: jag kör så fort bilen håller
[…]
[2012-10-13 23:22:18] Toni ‘CLUEZ’ Cherfan: jag tror det stämmer
[2012-10-13 23:23:10] Johan mlg Karlsson: great
[2012-10-13 23:23:15] Johan mlg Karlsson: sticker nu
[2012-10-13 23:23:16] Johan mlg Karlsson: (wave)
[2012-10-13 23:43:58] Mikael ”Acwder” Holm: Får jag spara den senaste timmens text här för att visa för folk som inte fattar varför saker inte är uppe efter 5 min och som inte greppar hur mycket tid vissa här inne lägger ner för att få liv i saker?
[00:06:55] adbot: **** ALERT **** http://www.piratpartiet.se (ettan) DOWN (5 TRIES)
To retry, write adbot: clearsite http://www.piratpartiet.se
[01:05:36] adbot: **** ALERT **** http://www.piratpartiet.se (ettan) DOWN (5 TRIES)
To retry, write adbot: clearsite http://www.piratpartiet.se
[01:37:54] Toni ‘CLUEZ’ Cherfan: mlg här. Vi håller på att installera en ny server som både lagring och virtualisering i ett. Den innehåller ett par lånade diskar som vi måste lämna tillbaka asap, dvs dags att köpa nya diskar jättesnart.
Vi kommer sänka all sql över natten för att flytta över till nya maskinen. Vi är tillbaka igen i morgon vid 12-tiden med lite tur 🙂
[01:38:31] Toni ‘CLUEZ’ Cherfan: pf: Vi håller på att installera en ny maskin. Vi kommer sänka all sql för att flytta över till den. Tillbaka i morgon klockan 12.
[01:38:38] Toni ‘CLUEZ’ Cherfan: ledning: Vi håller på att installera en ny maskin. Vi kommer sänka all sql för att flytta över till den. Tillbaka i morgon klockan 12.
[01:42:48] Toni ‘CLUEZ’ Cherfan: holm: mlg här, sure 🙂 ta gärna och censurera adresser dock 🙂
[01:56:30] XMPP: Sikevux | Ni är bäst grabbar. Bara så ni vet.
[01:59:13] Toni ‘CLUEZ’ Cherfan: yay!
[02:03:56] adbot: **** ALERT **** http://www.piratpartiet.se (ettan) DOWN (5 TRIES)
To retry, write adbot: clearsite http://www.piratpartiet.se
[02:17:37] adbot: **** ALERT **** https://pirateweb.net/Pages/Public/CheckHeartBeat.ashx (PirateBot) DOWN (5 TRIES)
To retry, write adbot: clearsite https://pirateweb.net/Pages/Public/CheckHeartBeat.ashx
[02:34:02] Toni ‘CLUEZ’ Cherfan: adbot: arbeitung!
[02:34:03] adbot: *** Arbetsläge på, inga sms eller larm skickas ut ***
[02:35:06] Toni ‘CLUEZ’ Cherfan: nu ser jag. paddan läser REJÄLT långsamt, någon av diskarna har trasiga sektorer
[02:35:39] Toni ‘CLUEZ’ Cherfan: mycket är rena deadlocks, dessutom
[02:37:12] Toni ‘CLUEZ’ Cherfan: den där arrayen är alltså verkligen inte frisk.
[02:38:15] XMPP: Kim ”Zash” Alvefur | Kommer VMs att gå ner något?
[02:40:42] Toni ‘CLUEZ’ Cherfan: om jag får som jag vill: nej
[03:07:16] Johan mlg Karlsson:  men datat går att läsa ut?

And now you know.

Ett minne jag har från ett tidigt jobb på just ett datorcenter var att en IT-infarkt (i brist på bättre ord) hade följande händelsekedja:

  1. Terminalen larmar att nånting gått åt pipsvängen.
  2. Supporttelefonen börjar ringa. Från och med detta ögonblick kommer en person vara helt upptagen med att svara i telefon och ge samma svar om och om igen: Ja, det är datorproblem, ja det jobbas på det, nej vi kan inte säga när systemet fungerar igen.
  3. Övrig personal (i värsta fall bara en person beroende på när på dygnet infarkten inträffade) försöker komma på vad som är fel och lösa problemet.

Efter ett tag skaffade vi en telefonsvarare. Vid punkt 2 ovan lät vi helt enkelt telefonen ringa medans vi pratade in aktuell status (man brukade kunna höra den vilt ringandes i bakgrunden, vilket säkert adderade till känslan av att full verksamhet rådde 😉 ) och sen fick telefonsvararen ta alla de där repetitiva förklaringarna och vi fick loss en person till.

När saker och ting verkligen jävlas då kanske det ser ut som nånting inte händer, i verkligheten brukar det vara tvärt om och det händer en jävla massa ”bakom scenen”. Toni och mlg (med hjälp av lite fler personer) jobbade röven av sig för att få upp servrarna igen inatt efter hårdvaruras. Hårdvaruras är sånt som händer oavsett hur bra rutiner man har och när det händer är det väldigt frustrerande att bli bombarderad med frågor om vad som hänt, hur lång tid det kommer ta eller vilka problem det här ställer till med för att man inte kan jobba etc.

Det RIKTIGT jobbiga är alla de som ”när de ändå har en på tråden” passar på att antingen häva ur sig massa ovett om saker som de tycker fungerar dåligt eller felrapporterar en skrivare som de kom på att de glömt bort att rapportera innan. Alltså, ärligt talat, brukar ni gå fram till en brandman som är fullt upptagen med att släcka en höghusbrand för att rapportera att din granne lagrar brandfarligt material i garaget…?

De som försöker fixa problemen är oftast väldigt medvetna om hur det här påverkar organisationen och gör sitt bästa, det bästa man kan göra då är att antingen fråga om det finns nånting man kan hjälpa till med (and trust me, att bara svara i telefon, hämta kaffe eller liknande är guld värt just då) eller helt enkelt bara hålla käften.

Advertisements

15 Responses to Kaos i IT-fabriken…

  1. Det går att bygga system som har tillräcklig redundans så att scenarion som det här inte uppstår, men det är en svår konst, speciellt om man har små medel i form av tid och pengar.
    Piratpartiet skulle behöva ett fail-over-system som åtminstone hanterar några vitala funktioner, men som hels hanterar hela infrastrukturen.
    Sedan så bör man titta på enskilda komponenter. Mysql har en tendens att generera fler problem än Postgresql t.ex.
    Ska man uppnå riktigt hög tillförlitlighet så måste man gå igenom sitt syste komponent för komponent och analysera vad som händer om den komponenten falerar och hur man ska hantera den situationen. Man bör även ta med några sannolika scenarion med multipla samtidiga fel. Sedan så gör man en riskanalys där man väger varje fel mot sannolikhet att det inträffar, konsekvens och kostnad för att åtgärda. Man får då en prioritetslista som man kan börja beta av.
    Gör man så här får man efter en tid ett system som aldrig rasar. Man kan få tillfälliga prestandaförluster, men totala stillestånd inträffar inte. Jag har genom åren byggt upp ett antal system på det här sättet och vi har aldrig haft något haveri som har påverkat kunder. Under de senaste 12 åren har vi haft ett stillestånd som gjorde att mina utvecklare inte fick något gjort på en hel dag, men det problemet anayserade vi och åtgärdade, så att det inte kan uppstå igen.

    • Plux Stahre says:

      Problemet är inte att det inte finns en medvetenhet om hur man löser problemen. Alla som sysslar med det här har vanliga jobb vid sidan av, och ska gärna ha lite tid att leva något slags liv också.

      Det är också väldigt lätt att stå som utomstående och säga saker som ”byt mysql mot postgre” och ge massa andra lösningar, utan att ha någon djupare insikt i vart problemen egentligen ligger. Det finns massor med anledningar till varför man inte kan kasta ut mysql etc..

      • Ja, det är ofta svårt att byta ut mjukvara. I detta fallet är det då hårdvaruproblem och då blir det inte bättre av att byta ut mjukvaran. Partiet har fått många medlemmar senaste veckan och forumet har gått på högvarv pga höstmötet så maskinen har fått jobba extra hårt på sistone så då är risken större att problem inträffar.

        Men då Jakob erbjuder sig – dra in honom att hjälpa till och drifta partiets servrar – det är alltid bra med folk med kunskaper.

    • qeruiem says:

      Jo, det går förstås att bygga helredundanta system och det finns nån slags långsiktig plan på att göra systemen bättre och det blir de också sakta men säkert. Partiets IT-system började med en gammal avdankad hemma-PC som stod i ett garage och var uppkopplad via privat bredband till att vi nu faktiskt har rack-servrar med i alla fall delvis redundans.

      Det jobbas hela tiden på att försöka få mer redundans och att migrera till bättre hårdvara så äldre hårdvara kan ersättas osv, men, som Plux säger, det är ändå nåt som genomförs på folks fritid. Det gör att saker och ting helt enkelt inte alltid händer så fort som man önskar…

  2. Känns oftast som att sånt här ”väljer” att hända just nattetid eller under semestertider.

    • Plux Stahre says:

      Stämmer bra, den här typen av problem händer alltid när det är som minst lämpligt. Lagen om alltings jävlighet.

    • qeruiem says:

      Mmmm. SMS-gatewayen bestämde ju att brinna upp (moderkortet kastade in handduken) PRECIIIIS lagom innan medlemsmötet. Timingen var, err, maximalt obra.

      Sen har det varit massa följdstrul delvis pga det (och delvis orelaterat) och, tja, hade skiten packat ihop i tex juni hade det varit fantastiskt lämpligt och oproblematiskt, men Murphys lag du vet. Förhoppningsvis är den nya maskinen mer stabil. Om inte annat vet jag hur man sätter upp allting nu. 😀

      Fast vi behöver en bättre SMS-lösning än den nuvarande. Den nuvarande är otroligt instabil och obskyr att meka med.

  3. Det går naturligtvis alltid att bygga perfekta system om man har tid och pengar, men det har tyvärr inte Piratpartiet, så därför händer sådant här ibland. Vi har dock något som är ännu bättre än tid och pengar. Vi har ett gäng grymt engagerade tekniker som jobbar stenhårt för att det ska fungera så bra det bara kan utifrån våra omständigheter. Det är något som alla inte kan skryta med. Det kan dock jag, så jag är en glad och stolt partiledare. 🙂

  4. urbansundstrom says:

    Reblogged this on Urbansundstrom’s Weblog.

  5. urbansundstrom says:

    Ni gör ett superbra jobb med servarna. Jag kommer och tänka på ABC-klubben som även har ett gäng fantastiska frivilliga tekniker. Jobbar själv på Trafikverket (Fd Banverket Telenät) och då får man läsa i tidningen om konsekvenserna av felen man råkar ut för.

  6. Pingback: Sysadminbloggen – IT-infarkt

  7. Det är inte så att jag inte uppskattar arbetet ni gör. Jag vet att ni sliter hårt med att hålla systemen i drift. Jag vet att det är ett tufft jobb, men med arbetsinsatserna på rätt ställe så blir jobbet enklare och mindre stressigt med tiden. Samma arbetsmängd som nu görs under total stress och med patchar och snabbfixar som resultat kan göras under lugna former med planerade resultat och testade system.
    Jag är beredd att slå vad om att det inte finns ett dokument med känslighetsanalys för systemet. Jag är övertygad om att förebyggande underhåll begränsas till att säkerställa att diskarna inte blir fulla. Jag är säker på att ett seriöst angrepp på systemet skulle leda till flera veckor av kaos och förlust av viktiga data.
    Att lösa det här är faktiskt viktigare än att hålla alla tjänster tillgängliga 24/7 i det korta perspektivet.

    • sysadminbloggen says:

      Jacob, jag tror du slår in öppna dörrar. Jag är övertygad om att viljan att förbättra finns. Eftersom jag inte känner till hur det ser ut i detalj hos partiet kan jag bara tala ur egen erfarenhet. Din erfarenhet av redundanta system skiljer sig en del från hur det sett ut på företag jag arbetat på. Främst för att resurserna saknats, inte kunskapen eller viljan.
      Det är inte förrän på mitt nuvarande jobb som det satsas på redundans, både av system och infrastruktur och det finns en tydlig DR rutin.
      Men sånt kostar pengar och tid. Dessutom mycket av båda varorna. Något som partiet inte har eftersom det mesta av arbetet utförs ideellt och, ja, det handlar om ett parti utan partistöd.

    • @collentine says:

      Håller med Jacob. Förebyggande arbeten spar mycket tid i det långa loppet. Även samarbeten och diskussioner med andra e.g. Steve Wilson som sköter i stort sett hela PPUK http://piratetimes.net/pp-uk-sysadmin-wins-opendns-award/

      Tror i många fall att det är lätt att ”skylla” på dåligt med tid och pengar när något går snett. Det är lättare att underhålla system än att fortsätta bygga.

      p.s. blev en ganska negativ kommentar men vill bara förtydliga att jag uppskattar allt arbete ni lägger ner på att IT ska funka. Ryggmärgen av Piratpartiet.

    • Johan mlg Karlsson says:

      Nej, du har faktiskt fel 🙂

      Vi var mitt uppe i ett byte från två disklådor med Raptor-diskar till två disklådor med ”riktiga” SAS-diskar och tillfälligt så hade vi knölat in mysql på workstation-diskar som självklart bestämde sig för att packa ihop medan de nya diskarna låg på posten.

      Vi har en arbetsplan för hur vi ska få till systemet, vilket inkluderar redundans på alla komponenter i serverhallen och även redundans mellan olika hallar. Dessutom har vi en katastrofplan för hur vi ska vara igång igen inom 24 timmar ifall polisen skulle stjäla precis all hårdvara.

      Angående känslighetsanalys, nej, vi har inte gjort något sådant dokument, vi men vi är ändå väl medvetna om vad som är trasigt på det system vi har idag. Det saknas bara några hundra arbetstimmar tills vi är där. 😉

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s

%d bloggare gillar detta: