Cyber-Resilienz im Fokus

Wenn Sicherheitssoftware Systeme lahmlegt

Bildquelle: iStock

Der „größte IT-Ausfall der Geschichte“ zeigt eindringlich, was passieren kann, wenn Abwehrsysteme unsicher werden und der eigentliche Schutz zur Bedrohung wird, weil schon kleine Fehler gravierende Folgen zeitigen können. Er beweist: IT-Prozesse sind nur so gut, wie sie trainiert und getestet werden

Die Schäden könnten Schätzungen zufolge in die Milliarden gehen und Experten wie der US-Sicherheitsforscher Troy Hunt nannte es den „größten IT-Ausfall der Geschichte“: Am Freitag, den 19.7.2024 um 06:09 Uhr stand plötzlich die digitale Welt still. Es kam global zu Störungen bei Schifffahrt, Fluggesellschaften, Medien- und Telekommunikation, Ticket- und Banking-Systemen, aber auch kritischen Infrastrukturen wie Energieversorgern, öffentlicher Verwaltung und Krankenhäusern.

Anzeige

Die Ironie daran: Was weltweit etwa 8,5 Millionen Geräte mit Microsoft Windows lahmlegte, war kein Angriff, sondern das fehlerhafte Update einer Sicherheitssoftware der Firma CrowdStrike zum Schutz der Systeme vor Cyber-Bedrohungen.

Wie konnte es so weit kommen?

Der Vorfall demonstriert auf alarmierende Weise, wie verwundbar Systeme sind, wenn eine Sicherheitslösung selbst zur Schwachstelle wird. Kern des Problems war, dass eine Sicherheitssoftware wie der Falcon-Sensor von CrowdStrike im Unterschied zum Benutzermodus mit eingeschränktem Zugriff auf der Kernel-Ebene operiert und daher tiefgreifende Zugriffsrechte auf kritische Systemkomponenten wie Speicherverwaltung und Hardwaresteuerung hat. Über diesen direkten Zugriff auf kritische Systemressourcen sollte der Falcon-Sensor einen weitreichenden Schutz vor Cyberbedrohungen bieten.

Ein Fehler auf der Kernel-Ebene kann aber, wie nun geschehen, das gesamte Betriebssystem zum Absturz bringen. Und hier liegt die Schwachstelle: Trotz dieser tiefen Eingriffsmöglichkeiten werden Updates für solche Treiber nicht immer umfassend getestet, so auch beim Falcon-Sensor. Die Folgen sind bekannt.

Die Bedeutung gründlicher Tests

Der Ausfall wirft daher zwei zentrale Fragen auf: Warum wurde der Fehler nicht vor dem Rollout des Updates entdeckt und warum haben die Unternehmen es versäumt, die Auswirkungen des Updates vorab in Testumgebungen zu analysieren? Eine gründlichere Testpraxis hätte den Fehler vermutlich aufgedeckt, und ein schrittweiser Rollout hätte zumindest den Schaden begrenzen können.

Die Antwort auf beide Fragen liegt in der aktuellen Bedrohungslage, die eine schnelle Reaktion auf neue Sicherheitsrisiken erfordert, und verdeutlicht zudem, was passieren kann, wenn automatisierte Lösungen ins Produktivsystem einspielt werden und nicht vorab in Testsysteme.

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Mangelnde Transportkontrollen

Transporte sind etwa im SAP-Umfeld unverzichtbar und zentraler Bestandteil der Softwareentwicklung, um Änderungen und Erweiterungen von einer Entwicklungs- in eine Test- oder Produktivumgebung sicher und effizient zu übertragen. Ihr Einsatz birgt aber auch Risiken: Unkontrolliert bieten sie Einfallstore für das Einschleusen risikobehafteter Objekte.

Daher ist es grundlegend, alle Transporte auf ihren Inhalt zu prüfen, noch bevor sie in das System gelangen. Im Idealfall sollte eine Kontrolle auf allen Ebenen etabliert sein: von der Codegenerierung über die Transporterstellung bis hin zum Einspielen in die Systeme. Toolbasierte Lösungen bieten hier profunde Unterstützung, setzen auf die SAP-Standardprozesse auf und ihre Transportanalysen sorgen in Kombination mit ABAP Code Scanning und Echtzeitanalyse für einen sicheren SAP Transport-Control-Prozess.

Schlüsse und Empfehlungen

Äußerst brisant ist der Einsatz von Kernel-Modus-Software in geschäftskritischen Anwendungen wie SAP-Systemen. Unternehmen sollten genau prüfen, welche Drittanbieter-Software auf Kernel-Ebene läuft und ob dies weiterhin gerechtfertigt ist. Besonders problematisch ist die automatische Aktualisierung solcher Software durch den Anbieter, ohne dass der Nutzer darauf Einfluss hat. Hier sollten Lösungen favorisiert werden, die ein aktives Change Management auf Kundenseite unterstützen.

Eine sicherere Alternative kann der Einsatz von Lösungen sein, die im Benutzermodus arbeiten können. Trotz weniger tiefer Eingriffe in das System bieten ganzheitliche Lösungen hier durchaus umfassenden Schutz vor fortgeschrittenen Bedrohungen. Beispiele in SAP sind die Überwachung von Anomalien in Benutzeraktivitäten, die auf eine Kompromittierung des Benutzerkontos hinweisen, und die Erkennung ungewöhnlicher Datenabfragen. Diese Maßnahmen helfen, Bedrohungen frühzeitig zu erkennen und rechtzeitig einzugreifen.

Schnelligkeit und Expertise

Ohnehin kommt es bei der Flut von Informationen und Ergebnissen vor allem auf die Schnelligkeit der Reaktion möglichst in Echtzeit an. Fortschrittliche Lösungen wie Threat Intelligence kombinieren dafür Threat Detection mit automatisiertem Ausfiltern der „False positive“-Meldungen von wirklich kritischen Events und erstatten unverzügliche Meldung, um ausgebildeten Analysten die abschließende Bewertung und Entscheidung zu erleichtern.

Weder rein manuelle Prozesse noch das Verlassen auf Standardtools, selbst wenn sie KI trainiert sind, führen also zum Erfolg. Automatisierte Security-Prozesse müssen dort, wo es sinnvoll ist, individuell auf die jeweilige Risikosituation abgestimmt werden, dann können sie die Arbeit um ein Vielfaches erleichtern, etwa durch kontinuierliche Sicherheitsaudits, permanentes Log-Monitoring zur Erkennung verdächtiger Aktivitäten oder attributbasiertes Data Masking. Voraussetzung dafür ist aber, dass die Tools von Experten bestmöglich trainiert und ausgiebig getestet sind – dies ist sozusagen die Königsdisziplin, bei der Automatisierung und Expertise stets Hand in Hand gehen.

Bewusstes Risikomanagement

Besonders im Umgang mit automatischen Reaktionen auf erkannte Bedrohungen sollte jedoch unbedingt ein bewusstes Risiko Management gelebt werden, denn wird die Sicherheit kategorisch vor die Systemverfügbarkeit gestellt, kann dies zu katastrophalen Ausfällen führen. Automatismen sollten nicht ohne sorgfältige Bewertung durch menschliche Entscheidungsträger aktiviert werden, um sicherzustellen, dass die getroffenen Maßnahmen angemessen sind. Der Vorfall mit CrowdStrike zeigt deutlich, dass eine Balance zwischen schneller Reaktion und systematischem Testen notwendig ist.

So bestätigt der Ausfall die Notwendigkeit einer gut durchdachten Sicherheitsstrategie, die der Verfügbarkeit der Systeme als Unternehmensziel Rechnung trägt. Unternehmen sollten dringend ihre Sicherheitsprotokolle überprüfen und gewährleisten, dass sie nicht nur gegen Bedrohungen geschützt sind, sondern auch robust genug, um im Notfall weiter zu funktionieren.

Ganzheitliche Resilienz als prioritäres Ziel

Den Update-Fehler sollten alle IT-Verantwortlichen zum Anlass nehmen, die Resilienz ihrer IT-Landschaften zu prüfen, sie macht im Notfall den Unterschied. CrowdStrike selbst betonte im Statement zum Ausfall die Resilienz und das Testen von Software sowie die Validierung durch Dritte als Maßnahmen, um zu verhindern, dass ein solcher Vorfall nochmals passiert.

Cyber Resilienz kann nur dann geschaffen werden, wenn die Sicherheit von A bis Z durchdacht ist. Elementar sind schnelle Reaktionszeiten, aber auch die Integrität und Verfügbarkeit der Systeme. Dazu gehört unbedingt, Updates und Modifikationen stets ausreichend zu testen und sich im Zweifel die nötige Expertise durch externe Security-Spezialisten ins Haus zu holen, um Totalausfälle effektiv zu vermeiden. Allen Unternehmen auf der Suche nach einem Leitfaden und Richtlinien zum Erreichen dieses Ziels sei die neue EU-Richtlinie NIS2 als derzeit bestmögliche Orientierung empfohlen.

(rg/Pathlock)

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.