Din ”sala motoarelor” din IT. Căutăm eroi pentru muncă fără glorie
Tocmai ai terminat de făcut plinul la mașină. Ajungi la casă, dai cu cardul. Nimic. Te enervezi, suni la bancă. Cinsprezece minute mai târziu și paisprezece opțiuni în sistemul de telefonie al băncii, după discuții cu boți și cu operatorii din call center, ai aflat că la banca ta tocmai are loc un incident IT major. Casierul de la benzinărie te privește dușmănos.
Sau: ești la aeroport, stai la check in. Coada crește, nimeni nu se mișcă. Operatorii de la ghișee se uită în gol. Zborul pe care trebuie să-l iei e doar primul dintr-o serie de două spre destinație, iar timpul trece și vei pierde al doilea zbor. O voce plictisită și formală anunță în stația de amplificare a aeroportului că o problemă în sistemele IT ale aeroportului împiedică îmbarcarea pasagerilor. Oftezi.
Sau: ești șofer pe un camion, bați Europa în lung și în lat. Ești aproape de granița cu Croația, destinația finală e la nici o oră de graniță. Deodată, dai într-o coadă uriașă de camioane care așteaptă. Frânezi, oprești, deschizi stația. Afli că nu trece nici un camion de graniță, ceva la sistemele vămii nu merge.
Și aș putea continua la infinit cu exemplele, unele mai nasoale ca altele. Toate au în comun calculatoarele. Bine, nu-i chiar așa, în spate sunt niște sisteme complexe, nu sunt doar calculatoare. Dar așa ne place încă să zicem, calculatoarele-s de vină.
Anii au trecut de la vremurile când calculatoarele erau doar în centrele de calcul sau în casele pasionaților. Nimic nu mai merge fără IT azi, așa că să nu ne mire când sistemele IT stau în calea vieții noastre de zi cu zi, fie pentru a ne ușura viața, fie pentru a ne-o complica.
Eu scriu însă articolul ăsta ca să-ți spun ce se întâmplă de partea cealaltă a baricadei când ceva nu merge. Ce fac cei pe care oamenii din scenariile de mai sus le zic lejer la nervi incompetenți, neputincioși, sau oameni care-s varză. Sunt oameni cu care n-am dormit, cu care am plâns și am râs în birourile corporațiilor la migrări nesfârșit de complicate de săptămâni întregi, oameni care se prăbușesc sub stresul urletelor și nervilor executivilor, sau care mai găsesc trei grame de putere și creativitate să facă să meargă din nou sisteme care refuză să mai pornească.
Primul lucru util de știut e că în general anatomia unui incident major în sistemele pe care le gestionezi nu e imediat vizibilă. Dacă ai noroc, sistemele vor eșua atunci când toată lumea e la birou și când ai șansele cele mai bune să rezolvi problema, pur și simplu pentru că oamenii de care ai nevoie sunt acolo. Dacă n-ai, e probabil două noaptea sau vineri seară și echipa e deja sleită de puteri și decuplată din poveste.
Și să vezi ce fain e când sună telefonul, e două noaptea și ești buimac. O voce feminină te salută și-ți zice că un incident critic e în desfășurare și că echipele te așteaptă. Te ridici din pat pâș-pâș ca să nu trezești lumea, te duci la laptopul care e deschis deja, ești om de operațiuni și nu-l oprești niciodată, durata cât un laptop pornește e timp prețios.
Te alături discuției. De cele mai multe ori e un chat, dar uneori sunt și întâlniri audio. Nimeni nu vrea cu video, e mai bine așa pentru că nu le vezi cearcănele tuturor. Monitorizarea, infrastructura, platforma, echipele de aplicații, bazele de date, furnizorii de cloud și de servicii de centre de date se alătură rând pe rând, uneori cu greutate. Pe măsură ce echipele se adună, situația nu se clarifică, ci devine și mai confuză. E normal, acțiunile simple care puteau fi făcute s-au executat deja, iar acum începe urcușul anevoios către o rezoluție la o problemă complexă necunoscută. Scalarea în sus a echipei adaugă complexitate umană, e mult efort de a le explica tuturor rând pe rând care-s lucrurile cunoscute și care nu-s.
Echipele-s rutinate și știu că primul lor obiectiv nu e să-i dea de capăt problemei, ci să găsească argumente pentru care incidentul nu li se datorează. E și ăsta un mod de a depana, prin eliminare. Știu că sună nasol, dar aproape de fiecare dată e așa. Oamenii au învățat că la capătul incidentului clienții și executivii vor vâna vinovații, așa că prima reacție e una umană, de autoapărare.
Dacă ești un manager de operațiuni bun, rolul tău să creezi spațiul în care oamenii ăștia să se simtă în siguranță. Îi scoți din blocaje, îi forțezi să lucreze împreună. Orice-ți spun, trebuie să fii pregătit să sapi în adâncime. Prioritatea ta numărul unu e să-i faci să lucreze laolaltă la o soluție, să-i scoți din autoprotecție.
Prioritatea a doua e să începi să dai telefoane la oamenii care trebuie să știe despre incident. Dacă e ceva vizibil prin presă sau social media, sună ei primii. De fiecare dată e aceeași discuție: cât mai durează, care-i planul, cine-i de vină. Și răspunsurile-s aceleași: facem tot ce putem, planul e că eliminăm cauzele pas cu pas, echipa e în curs de mobilizare, nu e momentul să discutăm despre cine-i de vină.
Primele discuții sunt oarecum cordiale. Pe măsură ce trece timpul și rezoluția nu apare, politețea e înlocuită de un ton întâi ferm, mai apoi tăios, iar la urmă oamenii-și pierd efectiv firea. Ești la mijloc, între oamenii cu ochi cârpiți de nesomn și managerii și executivii speriați de dimensiunea incidentului. E momentul pentru o cafea.
După câteva cicluri, încep să apară primele idei. Încetul cu încetul ele devin opțiuni, un schelet de plan începe să se contureze. Rolul tău se mută în zona de facilitator și comunicator: trebuie să faci rost de chestii la 4 dimineața în același timp în care ai deja un board room la care trebuie să dai explicații.
Dacă ai noroc, cam după 4-5 ore de încercări ceva parcă-parcă merge. Sistemul repornește greoi, uneori se prăbușește din nou sub povara sarcinilor neînchise sau a utilizatorilor care la cel mai mic semn de viață se năpustesc asupra lui. Serviciile repornesc unul câte unul, dar nimeni nu pleacă la somn.
E nevoie să verificăm că totul merge, să recuperăm tranzacții, să stabilizăm ce e de stabilizat. La ora asta, după tot efortul, nimeni nu se bucură. Azi e deja mâine și după bunul obicei vor urma săptămâni întregi de analiză post mortem. E liber la vânătoarea de vrăjitoare, dormim câteva ore și ne vom reapuca de treaba de zi cu zi și de dat explicații.
Știu că atunci când sistemele critice nu merg lucrul ăsta se vede și se simte. Ce se vede mai puțin însă sunt armatele de oameni care le fac în general să meargă, sau le resuscitează atunci când nu mai merg.
În sala motoarelor din IT, fochiștii și mecanicii domeniului muncesc de zor, zi și noapte. E plin acolo de meserii lipsite de glorie, dar făcute numai de eroi. Am renunțat să mai fac operațiuni pentru că nota de plată fizică e cam mare de la o vârstă încolo, însă tot mi-e cumva dor de haosul și drama unui incident critic. O fi vreo formă de masochism.
Știu însă cât de greu e când nu merg cardurile, când pierzi avioane sau când coada la vamă nu se mișcă. Dar e greu și de partea cealaltă și eu nu am lucrat niciodată, dar niciodată cu echipe cărora nu le păsa. Doar că nimic nu mai e simplu în secolul ăsta, așa că închei cu scuze și cu o rugăminte: chiar ne pare rău că uneori lucurile nu merg și că vă facem să suferiți, dar aveți puțină îngăduință și pentru noi, cei din sala motoarelor.
Foto: freepik.com