CrowdStrike sorgte durch ein fehlerhaftes Update für einen weltweiten IT-Kollaps: Was geschah, wie es passierte und wo die Auswirkungen am stärksten zu spüren waren.
Ein beispielloser weltweiter Technologie-Ausfall am Freitag, den 19. Juli 2024, führte zu massiven Störungen in verschiedenen Bereichen. Flüge wurden gestrandet, Gesundheitsdienste unterbrochen, Zahlungssysteme fielen aus und der Zugang zu Microsoft-Diensten war blockiert. Experten bezeichnen dies als den größten IT-Ausfall der Geschichte.
Stunde Null: Wie das Debakel begann
In den frühen Morgenstunden des Freitags begannen Berichte über Windows-Systeme mit Blue Screens of Death (BSODs) aus Australien einzutreffen. Bald darauf wurden ähnliche Probleme in Großbritannien, Indien, Deutschland, den Niederlanden und den USA gemeldet. Große Dienstleister wie Sky News und Fluggesellschaften wie United, Delta und American Airlines erlebten schwerwiegende Störungen, die zu einem “globalen Bodenstopp” für Flüge führten.
Die Ursache wurde auf ein fehlkonfiguriertes Falcon Sensor-Update von CrowdStrike zurückgeführt, einem prominenten Cybersicherheitsunternehmen. Die fehlerhafte Konfiguration betraf eine bestimmte Datei mit der Bezeichnung Channel File 291. Diese Datei ist ein wesentlicher Bestandteil des verhaltensbasierten Schutzsystems des Falcon-Sensors, das regelmäßig aktualisiert wird, um sich an neue Bedrohungen anzupassen.
Das Update, das eigentlich die Sicherheit verbessern sollte, führte unbeabsichtigt zu weitverbreiteten Systemabstürzen. Techniker von CrowdStrike erkannten das Problem im Reddit-Forum des Unternehmens an und boten betroffenen Nutzern eine temporäre Lösung an, während an einer permanenten Behebung gearbeitet wurde.
CrowdStrikes Reaktion auf den Ausfall
George Kurtz, CEO von CrowdStrike, reagierte wenig später auf die Situation und bestätigte, dass es sich nicht um einen Cyberangriff handelte, sondern um einen Fehler im Update. Er versicherte, dass ein Fix bereitgestellt wurde und betonte, dass das Problem nur Windows-Systeme betraf, während Mac und Linux nicht betroffen waren.
Microsoft reagierte ebenfalls und erkannte die Probleme an, während es mit CrowdStrike an deren Lösung arbeitete. Gleichzeitig hatte Microsoft mit einem nicht damit zusammenhängenden Ausfall seiner Azure-Cloud-Dienste zu kämpfen, was die Situation noch komplexer machte.
Globale Auswirkungen
Microsoft gab auf seinem Unternehmensblog bekannt, dass das fehlerhafte Software-Update schätzungsweise 8,5 Millionen Windows-Geräte beeinträchtigte. Dies entspricht weniger als einem Prozent aller Windows-Computer weltweit. Trotz dieser relativ geringen Anzahl waren die wirtschaftlichen und gesellschaftlichen Folgen beträchtlich. Diese Diskrepanz unterstreicht die weite Verbreitung und Bedeutung des Softwareanbieters CrowdStrike, insbesondere bei Unternehmen und Organisationen, die kritische Dienste und Infrastrukturen betreiben.
Betroffen waren:
- Fluggesellschaften: Über 2.000 Flüge wurden weltweit gestrichen, mit langen Verzögerungen und manuellen Check-in-Prozessen für Passagiere. Besonders betroffen waren Flughäfen in Sydney, London, Seoul und Washington D.C.
- Medien: Sky News und andere Sender erlebten Ausfallzeiten, die ihre Fähigkeit zur Nachrichtenübermittlung beeinträchtigten.
- Gesundheitswesen: Krankenhäuser in Deutschland und Großbritannien meldeten Schwierigkeiten beim Zugriff auf Patientenakten, was zur Absage geplanter Operationen führte.
- Finanzdienstleistungen: Banken wie JPMorgan Chase sahen sich mit Verzögerungen bei der Verarbeitung von Trades konfrontiert, da Mitarbeiter sich nicht in ihre Systeme einloggen konnten.
Wie ist der Status quo?
Die Lage hat sich inzwischen weitgehend beruhigt. Der Flugverkehr, der besonders stark betroffen war, normalisiert sich allmählich. An vielen Flughäfen, wie beispielsweise am Berliner BER, laufen die Abfertigungen wieder reibungslos. Auch Eurowings, die am Freitag über 80 Flüge streichen musste, plant die Rückkehr zum Normalbetrieb. In anderen betroffenen Bereichen wie Krankenhäusern, Banken und Verwaltungen funktionieren die meisten Systeme wieder normal.
Allerdings könnte es in einigen Sektoren noch zu Verzögerungen oder Nachwirkungen kommen. CrowdStrike hat das technische Problem erkannt und behoben. Das Unternehmen hat ein neues Update bereitgestellt und arbeitet eng mit den betroffenen Kunden zusammen, um alle Systeme vollständig wiederherzustellen. Angesichts der Situation warnt CrowdStrike aber vor möglichen Versuchen von Hackern, die entstandene Unsicherheit auszunutzen. Kunden werden zur erhöhten Wachsamkeit aufgerufen und sollten nur mit offiziellen CrowdStrike-Vertretern zusammenarbeiten.
Hintergrund: Was genau macht CrowdStrike?
CrowdStrike, mit Hauptsitz in Austin, Texas, wurde 2011 gegründet und hat sich seitdem zu einem führenden Anbieter von cloudbasierten Sicherheitsdiensten entwickelt. Das Unternehmen betreut mehr als 3.500 Kunden und deckt etwa ein Viertel des Marktes für Endpoint-Sicherheit ab. Laut ihrer Website schützt CrowdStrike 538 der Fortune 1000 Unternehmen.
Die Firma hat in den letzten Jahren ein beeindruckendes Wachstum erlebt und verfügte vor dem Vorfall über einen Marktwert von rund 83 Milliarden Dollar. Allerdings fiel der Aktienkurs des Unternehmens im Zuge des Ausfalls am Freitag um bis zu 13%.
Was ist Falcon Sensor?
Der CrowdStrike Falcon Sensor ist ein wesentlicher Bestandteil der CrowdStrike Falcon-Plattform, einer cloudbasierten Cybersicherheitslösung. Dieser schlanke und intelligente Agent wird auf Endgeräten wie Computern, Servern und Cloud-Workloads installiert und arbeitet eigentlich unauffällig im Hintergrund, ohne die Systemleistung wesentlich zu beeinträchtigen. Ein Merkmal des Falcon Sensors ist seine Fähigkeit, kontinuierlich Ereignisdaten zu sammeln, um verdächtige Aktivitäten zu erkennen. Dabei konzentriert er sich insbesondere auf Prozessausführungen, um potenzielle Bedrohungen frühzeitig zu identifizieren. Der Sensor unterstützt verschiedene Betriebssysteme, darunter Windows, Mac und Linux, und kann sowohl auf Desktop- als auch auf Serverplattformen eingesetzt werden. Wegen der cloudnativen Architektur des Sensors erfolgen Aktualisierungen automatisch und ohne Neustart des Systems.
Was wir gelernt haben
Der CrowdStrike-Ausfall hat eindrucksvoll gezeigt, wie verwundbar unsere Computerinfrastruktur tatsächlich ist. Ein simpler Fehler in einem Update führte dazu, dass weltweit Millionen von Windows-Computern abstürzten und das berüchtigte Blue Screen of Death zeigten. Dies verursachte Chaos auf der ganzen Welt: Krankenhausoperationen wurden abgesagt, Flughäfen geschlossen, die Börse im Vereinigten Königreich hatte Probleme, Flüge in Japan wurden gestrichen und Banken sowie Supermärkte in Indien und Australien waren offline.
Obwohl CrowdStrike das Problem schnell identifizierte und einen Fix bereitstellte, war der Schaden bereits angerichtet. Der Vorfall verdeutlicht die Abhängigkeit von einzelnen Softwareanbietern, die als Single Point of Failure fungieren können und unterstreicht die Notwendigkeit, die Widerstandsfähigkeit der Lieferketten regelmäßig zu überprüfen und Diversifikationsstrategien zu entwickeln.
Letztendlich zeigt der Vorfall, dass technologische Lösungen, so ausgefeilt sie auch erscheinen mögen, von Menschenhand geschaffen sind und somit fehleranfällig bleiben. In einer idealen Welt würden wir diese Unvermeidlichkeiten einkalkulieren und geeignete Sicherheitsmechanismen implementieren, doch die Realität sieht oft anders aus.