Internet-Intelligence

Internet-Ausfälle? Müssen nicht sein!

18. März, 2023
17:20

Facebook X LinkedIn Reddit WhatsApp Pocket

Jeden Tag kommt es zu großen und kleinen Internet-Ausfällen, überall auf der Welt. Das Internet-Intelligence-Unternehmen Cisco ThousandEyes hat zehn interessante Ausfälle des vergangenen Jahres analysiert, um herauszufinden, was wir von ihnen lernen können.

Bei webbasierten Anwendungen und Cloud-Services kommt es unweigerlich immer wieder zu Ausfällen – davor ist kein Internet Service Provider, Cloud-Anbieter und natürlich kein/e NutzerIn gefeit. Auch im vergangenen Jahr kam es zu tausenden von Störungen weltweit. Viele waren kaum der Rede wert, aber einige hatten weitreichende Auswirkungen. In jedem Fall steht fest: Ausfälle beeinträchtigen die Nutzung und lähmen manchmal sogar den gesamten Geschäftsbetrieb. Doch nur wenige Unternehmen ermitteln in ausreichendem Maß die Ursache, häufig mangelt es überhaupt an Möglichkeiten zur Ursachenforschung.

Die Einführung der Cloud, die Migration zu SaaS, SD-WAN und hybrides Arbeiten sind nur einige der wichtigsten Faktoren, die die Digitalisierungsbemühungen von Unternehmen heutzutage vorantreiben. Doch mit dieser neuen Abhängigkeit von Cloud- und Internetumgebungen müssen IT-Teams ein komplexes Ökosystem von Diensten, Netzwerken und Anbietern verwalten, die außerhalb der Unternehmensgrenzen liegen. Auch wenn die Unternehmen keine Eigentümer der zugrunde liegenden Infrastruktur externer Dienste sind, so sind sie doch verantwortlich für die Benutzererfahrung.

Lektionen aus Ausfällen

Auch wenn Ausfallzeiten unvermeidlich und Teil des Alltags sind, ist es wichtig, schnell zu verstehen, wo im komplexen Zusammenspiel digitaler Dienste ein Ausfall auftritt. Nur so lassen sich Probleme beheben, bevor sie sich auf die Benutzer- oder Mitarbeitererfahrung auswirken. Um Unternehmen bei der Bewältigung der neuen Unternehmensrealitäten von heute zu unterstützen und Ausfallzeiten zu minimieren, hat Cisco ThousandEyes zehn interessante Ausfälle aus dem Jahr 2022 genauer unter die Lupe genommen und herausgefunden, was wir von ihnen lernen können.

Einige der wichtigsten Erkenntnisse sind:

Ein Ausfall der Online-Dienste bei British Airways am 25. Februar führte zu hunderten Flugstornierungen. Das entsprechende Design von Backends, die einzelne Fehlerquellen vermeiden, kann die Wahrscheinlichkeit einer solchen Kette von Ereignissen verringern.

Twitter war am 28. März nicht mehr erreichbar, nachdem ein russischer Internet- und Satellitenkommunikationsanbieter den Datenverkehr mit einem Blackhole versehen hatte, indem er eines der Präfixe veröffentlichte. Auch wenn ein Unternehmen RPKI implementiert hat, um solche BGP-Bedrohungen abzuwehren, hat dies der Telekommunikationsanbieter möglicherweise nicht umgesetzt. Das sollten Verantwortliche bei der Auswahl von ISPs berücksichtigen.

Ein AWS-Ausfall wurde am 8. Juli durch einen Stromausfall in der Availability Zone verursacht und betraf Anwendungen wie Webex, Okta und Splunk. Es waren jedoch nicht alle BenutzerInnen oder Dienste gleichermaßen betroffen. Webex-Komponenten, die sich in Cisco-Rechenzentren befanden, waren weiterhin betriebsbereit. Unternehmen müssen daher über eine redundante AZ-Architektur verfügen, da diese in der Regel aktiv/aktiv ist und die Ausführung eines Backup-Plans überflüssig macht.

Die Google-Suche und Google Maps waren für NutzerInnen auf der ganzen Welt am 9. August nicht mehr verfügbar. Auch Anwendungen, die von der Google-Software abhängen, funktionierten nicht mehr. Dies ist ein gutes Beispiel, um zu verdeutlichen, wie wichtig es ist, nicht nur Anwendungs-Frontends zu überwachen, sondern auch die leistungsrelevanten Abhängigkeiten, die diese Anwendung antreiben.

Ein kurzer Zoom-Ausfall betraf am 15. September NutzerInnen weltweit. Die Lektion lautet hier, dass manchmal die App selbst die Probleme verursacht und nicht das Netzwerk des Unternehmens oder das Büro des Heimarbeiters. Wer schnell weiß, wo die Ursache liegt, spart Zeit und Produktivität.

Am 25. Oktober konnten WhatsApp-NutzerInnen zwei Stunden lang keine Nachrichten senden oder empfangen. Dies war eher auf Ausfälle von Backend-Anwendungen als auf einen Netzwerkausfall zurückzuführen. Ein erfolgreiches SaaS-Geschäft beruht auf kontinuierlicher Verbesserung, weshalb eine unmittelbare Feedbackschleife – in der Fehler schnell behoben werden können – notwendig ist. Die Verfügbarkeit von Daten, mit deren Hilfe das Netzwerk als Problemursache ausgeschlossen werden kann, wenn ein Fehler im Produktionssystem auftritt, kann die Lösung technischer Probleme beschleunigen.

ThousandEyes beobachtete am 5. Dezember mehr als eine Stunde lang erhebliche Paketverluste zwischen zwei globalen Standorten und der AWS-Region us-east-2. Das Ereignis betraf NutzerInnen, die sich über ISPs mit den Diensten des Cloud-Infrastrukturanbieters in dieser Region verbinden wollten. Bei Public Clouds ist es wichtig, nicht nur die Anwendungen selbst zu überwachen, sondern auch die Komponenten der Cloud-Infrastruktur, einschließlich der einzelnen Cloud-Regionen und Cloud-Verfügbarkeitszonen sowie aller abhängigen Cloud-Software-Services.

Unabhängig davon, wo eine Störung auftritt – innerhalb der SaaS-Anwendung, beim Internetanbieter oder beim Cloud-Anbieter – gibt es Möglichkeiten, eine widerstandsfähige Infrastruktur aufzubauen, um die Benutzererfahrung zu schützen. Dies beginnt mit Transparenz und dem Wissen, wo ein Ausfall auftritt und wer dafür verantwortlich ist.

Marcus

Gerstmann

Events

Jobs

Meistgelesene Artikel

Trade Republic erneut down: Tausende Störungsmeldungen

Trade Republic down: Investment-App kämpft mit Störungen

Cyberangriff auf Arbeitsamt: Hacker wollten ans Arbeitslosengeld

X down – schon wieder! Tausende Nutzer melden Störungen

Wegen US-Zöllen: Baerbock fordert 10 Cent pro iPhone-Update

IT Verlag

Wichtige Links

Kontakt