Aus Fehlern der IT lernen

Gastbeitrag von | 18.05.2020

Ihr Rechner scheint kaputt. Ursache unklar. Aber er wird heiß und der Prozessor wird bereits langsamer. Um ihn nicht zu überhitzen, fahren Sie den Rechner sicherheitshalber herunter, lassen ihn abkühlen und tauschen sogar den Ventilator. Kaum, dass sie danach die Temperatur messen, die wieder im erlaubten Bereich liegt, fahren Sie ihn wieder hoch und arbeiten weiter wie bisher.

Bei einem so einfachen System haben Sie – zumindest bei ein bisschen Erfahrung mit PCs und es sich nicht um einen Virus oder ein beschädigtes Lüftungskabel handelt – eine gute Chance, dass das funktioniert. Natürlich ist es unangenehm, dass Sie die Daten einer Datei verloren haben, aber mit ein bisschen Aufwand lässt sich dies wieder ausgleichen. Alles gut, oder?

Fehlerbeseitigung in komplexen IT-Systemen

Ich komme aus der Welt der Rechenzentren und der Applikationsbetreuung. Spätestens mit Einführung von Rechnernetzen und vernetzten Applikationen war die Fehlerbeseitigung nicht mehr ganz so einfach. Professionelle Fehlerursachenforschung folgte dem Prinzip, eine Ursache nach der anderen auszuschließen. Oft war sie daher (zu) langwierig. Ungeduldige Applikationseigner machten die Sache für das technische Personal nicht einfacher, selbst wenn ihnen im Vorfeld von der IT mehrfach gesagt worden war, dass sie sich auf mögliche Ausfallzeiten vorzubereiten hätten. Und gerade diejenigen, die im Vorfeld durch besondere Sparsamkeit aufgefallen waren, standen nun in der ersten Reihe der Kritiker und forderten Ersatzsysteme, technische Meisterleistungen und manchmal kleine Wunder.

In Zeiten von Corona kommen die Erinnerungen daran massiv hoch, und ich habe bei allen Unterschieden zwischen biologischen, ökonomischen und technischen Systemen einen Verdacht, was die Gründe dafür sind, wenn ich die aktuelle Situation beobachte.

Manchmal konnte eine genaue Ursache nicht wirklich gefunden werden, oder sie war einfach von außen induziert und daher mit Bordmitteln nicht vermeidbar. Ein paar Kabel getauscht, eine Putzfrau (besser gesagt ihren Staubsauger) aus dem Rechnerraum entfernt, ein endlich verfügbares Update der Datenbanksoftware installiert, hochfahren und schon ging es weiter. Die Nutzer sagten „Seht Ihr, war doch ganz einfach“ und machten freudig weiter wie bisher mit Sparpolitik und dem Glauben an die Möglichkeit einer unfehlbaren, aber doch so fragilen IT-Lösung. Nicht so die IT-Experten, die weiterhin Unkenrufe zum Besten gaben und die „Lösung“ als wackelig und unprofessionell empfanden.

Manchmal ging die Strategie sogar auf. Das hatte allerdings den fatalen Effekt, dass weitere Nutzer sich am Sparprogramm und fehlenden Vorsorgemaßnahmen beteiligten. Der nächste Crash war nicht weit, und die Suche nach den Schuldigen trat meist wieder die IT. Irgendwann wurde deren Management ausgetauscht, oder die IT sogar „geoutsourced“. Nach einem kurzen Durchatmen aller Beteiligten stellten die ersten fest, dass nichts besser wurde. Im Gegenteil: es wurde teurer und aus der Perspektive der Nutzer lies sich immer weniger beeinflussen.

Tatsächlich lief es oftmals wesentlich besser, wenn bei diffuser Fehlerursache ein langsames und schrittweises Hochfahren möglich war, und die Applikationseigner diesen Prozess unterstützten. Nur Teile der Applikation(en) wurden zur Verfügung gestellt, der Zugriff war nicht von überall möglich, sondern nur über ausgezeichnete Wege, die Anzahl der Nutzer wurde vorübergehend reduziert. Bei jedem weiteren Schritt des Hochfahrens wurde im Vorfeld diskutiert,

  • welche Komponenten betroffen waren,
  • welche Risiken mit welcher Bewertung es gab
  • und wie lange es bis zum nächsten Schritt dauern würde.

Traten in einem Schritt Probleme auf, wurde der Stand vor der letzten Änderung wieder hergestellt und auf die entsprechenden Komponenten geschaut.

Rahmenbedingungen für professionelles Vorgehen

Zwei Dinge waren bei der Fehlerbeseitigung wesentlich:

  1. Mit klaren Prioritäten zu arbeiten.
  2. Die Sorgen derjenigen zu beachten, die in der Prioritätenliste nicht ganz weit oben standen.

Warum war der 2. Punkt so wichtig? Scherte nur einer aus und versuchte unabgestimmte Sonderlösungen für bestimmte Nutzergruppen durchzusetzen, stockte im harmlosesten Fall der Prozess, im schlimmeren kam er ziemlich durcheinander. Es gab mehr als einmal den bekannten Effekt „Gehen Sie direkt zurück auf Los, ziehen Sie keine 4000 Euro ein…“.

Damals wie heute gilt: Die Beschäftigung mit Schuldzuweisungen ist weder intern noch extern förderlich. Im Gegenteil. Fast immer bindet sie notwendige Ressourcen. Immerhin lernte rückblickend so manche Abteilung zu improvisieren. Und die Firma erkannte, welche Prozesse tatsächlich business-kritisch waren, und welche nicht. In der Konsequenz stellte das auch den Status so mancher Führungskraft auf den Prüfstand.

Professionelles Vorgehen braucht Lernen aus Fehlern

In professionellen Bereichen gab es sowohl im Laufe des Prozesses als auch danach Schwachstellenbetrachtungen, durchaus mit Grundsatzcharakter:

  • War das System überhaupt noch zeitgemäß?
  • Welchen Wert hatte es für die Firma?
  • Wo war es (zu) kompliziert und damit schwer zu betreuen?
  • Wo waren fehleranfällige Komponenten?
  • Welche (Investitions-)Kosten waren für einen angemessenen Betrieb erforderlich?
  • Und auch: Welche Business-Prozesse sind wirklich unternehmesrelevant?

Auch bei der Diskussion dieser Fragen war eine gute Zusammenarbeit und ein Verzicht auf die Durchsetzung von Partialinteressen zwingend, um nachhaltige Ergebnisse zu erzielen. Es galt schlicht und einfach, aus Fehlern zu lernen.

Schön und gut. Und jetzt?

Was nehmen Sie mit aus meiner Beschreibung? Was können Sie und Ihre Organsation daraus lernen?

Werfen wir einen Blick auf Unternehmen in der heutigen Zeit, in Zeiten von Corona. Für viele Unternehmen ist die Infrastruktur praktisch von jetzt auf gleich ausgefallen. Mitarbeiter können ihre Arbeit nicht oder nur sehr eingeschränkt nachgehen. Nun kann man auf die Infrastruktur schimpfen, Druck machen, und fordern, dass die Infrastruktur doch einfach funktionieren müsste. „Das hätte ‚man‘ doch sehen müssen.“ Oder: „Typisch, da haben X und Y wieder geschlafen!“

Ich finde es viel sinnvoller, sich Gedanken über die eigene Zukunft zu machen, über veraltete Prozesse und die angemessene Vorsorge für Risiken und Krisen. Sie könnten sich bspw. fragen:

  • Welche Rolle spielt mein Produkt in Krisenzeiten und was sind die Konsequenzen daraus? Vor allem, welche Wichtigkeit hat es dann überhaupt?
  • Wie sehr verlasse ich mich auf die Verfügbarkeit einer fragilen Logistik oder eines globalen Vertriebes?
  • Wie und mit welchem Angebot kann ich auch in Krisenzeiten mein Geschäft soweit aufrechterhalten, dass ich nicht pleitegehe?
  • Welche Rücklagen bilde ich für Krisenzeiten, um unabhängig zu bleiben?
  • Wie kann ich (finanziell) dazu beitragen, dass ich in Krisenzeiten Unterstützung von anderen bekomme oder die notwendige Infrastruktur ausreichend abgesichert ist, um weiterzuarbeiten?
  • Was muss ich in meinen Prozessen ändern?
  • Welche bisherigen Einsparungen haben einen ruinösen Charakter?

Viele dieser Fragen lassen sich tatsächlich nur mit einer geänderten Vorstellung zum Wirtschaften von Unternehmen angemessen beantworten.  Ein Mehr an Gemeinsamkeit von Unternehmen anstelle von ruinösem Preiskampf, ein Mehr an Zusammenarbeit mit Partnern auf lokaler Ebene, das sind Parameter, die Unternehmen aus eigener Kraft und ohne Abhängigkeit von Politik bewältigen können.

Natürlich ist es wichtig, dass die „Nutzer“ von Unternehmen, sprich die Kunden“ bereit sind, angemessen für Leistungen zu zahlen. Als IT-Managerin habe ich die Erfahrung gemacht, dass  Service-Orientierung und Erwartungsmanagement essentielle Voraussetzungen für erfolgreiches Handeln sind. Ich habe kürzlich einen Fernsehbericht über die Kieler Helden gesehen, die statt wie bisher in Konkurrenz nun miteinander eine Corona-feste Versorgung für Kunden anbieten.¹ Aus meiner Sicht ist das ein großartiges Beispiel für einen anderen,  „besseren“ Ansatz.

Eine persönliche Anmerkung

Vielleicht stellen Sie sich die Frage, ob IT-Systeme und die Situation in und um Unternehmen in Corona-Zeiten überhaupt vergleichbar sind?

Natürlich kann man argumentieren, dass die Form unseres Wirtschaftens viele Jahrzehnte hervorragend funktioniert hat und ein „einzelner Ausfall“ noch lange kein Signal für weitere Krisen sein muss. Ich sehe es aber anders. Für mich zeigt die Wissenschaft sehr deutlich,  dass komplexe Systeme viele Gemeinsamkeiten aufweisen, und dass unerwartete Ereignisse in komplexen Systemen zunehmend an Bedeutung gewinnen. Solche Ereignisse werden in fragilen Systemen schnell zur Krise. Und selbst wenn Sie es anders sehen: warum sollte man nicht einfach versuchen, voneinander zu lernen? Warum sollte man nicht Situationen in Organisationen, in Industrien und auch in Gesellschaften hinterfragen, um eigene Schwachstellen oder Risiken zu identifizieren. Ich glaube, von einer solchen Sicht, einer solchen Perspektive gewinnen letztendlich alle.

 

Hinweise:

Interessieren Sie sich für weitere Tipps aus der Praxis? Testen Sie unseren wöchentlichen Newsletter mit interessanten Beiträgen, Downloads, Empfehlungen und aktuellem Wissen.

[1] https://www.kielerhelden.de/

Astrid Kuhlmey hat im t2informatik Blog weitere Beiträge veröffentlicht, u.a.

t2informatik Blog: Planung unter Vorbehalt

Planung unter Vorbehalt

t2informatik Blog: Loslassen ist das neue Planen

Loslassen ist das neue Planen

t2informatik Blog: Wie kann ich Ungewissheit vermeiden?

Wie kann ich Ungewissheit vermeiden?

Astrid Kuhlmey
Astrid Kuhlmey

Dipl.Inf. Astrid Kuhlmey verfügt über mehr als 30 Jahre Erfahrung im Projekt- und Linienmanagement der Pharma-IT. Seit 7 Jahren ist sie als systemische Beraterin tätig und begleitet Unternehmen und Individuen in notwendigen Veränderungsprozessen. Ihr liegen Nachhaltigkeit sowie gesellschaftlicher und wirtschaftlicher Wandel und Entwicklung am Herzen. Gemeinsam mit einem Kollegen hat sie einen Ansatz entwickelt, Kompetenzen zum Handeln und Entscheiden in Situationen der Ungewissheit bzw. Komplexität zu fördern.