Das Forschungs- und Beratungsunternehmen Gartner hat kürzlich neun wesentliche Prinzipien vorgestellt, die darauf abzielen, die Widerstandsfähigkeit von Cloud-Diensten zu verbessern. Diese Prinzipien bieten wertvolle Einblicke und Strategien für Unternehmen, um ihre Cloud-Infrastrukturen effektiver gegen Ausfälle und Störungen zu schützen.
Laut Gartner müssen Führungskräfte im Bereich Infrastruktur und Betrieb (I&O) 9 Prinzipien anwenden, um die Widerstandsfähigkeit von Cloud-Umgebungen zu maximieren.
“Die Cloud ist nicht auf magische Weise widerstandsfähig und Softwarefehler, nicht physische Ausfälle, verursachen fast alle Cloud-Ausfälle”, sagte Chris Saunderson, Senior Director Analyst bei Gartner. “In der Cloud betreffen Ausfälle fast nie den gesamten Cloud-Provider, und es ist auch unwahrscheinlich, dass es zu vollständigen Ausfällen kommt. Stattdessen sind Teilausfälle, Serviceverschlechterungen, einzelne Serviceprobleme oder lokale Probleme typisch.”
Das I&O-Team müsse die Merkmale und häufigen Ursachen von Cloud-Ausfällen verstehen. Dazu gehört, dass die meisten Ausfälle partiell sind, dass sie in der Regel zeitweise auftreten oder eine Leistungsverschlechterung mit sich bringen, die nicht sofort spürbar ist, und dass es Unterschiede in der Ausfallsicherheit zwischen den einzelnen Cloud-Anbietern gibt.
“Resilienz ist kein binärer Zustand”, so Saunderson. “Niemand kann absolute Resilienz für sich beanspruchen – weder Sie noch ein Cloud-Anbieter. Clouds sollten genauso widerstandsfähig oder sogar widerstandsfähiger sein als lokale Infrastrukturen, aber nur, wenn das I&O-Team sie auf eine widerstandsfähige Weise nutzt.” Das sind die 9 Prinzipien, die wichtig sind!
1. Geschäftsausrichtung
Die Resilienzanforderungen müssen auf die Geschäftsbedürfnisse abgestimmt sein. Ohne diese Abstimmung werden die Teams die Resilienzerwartungen nicht erfüllen oder zu viel ausgeben.
2. Risikobasierter Ansatz
Ein risikobasierter Ansatz für die Resilienzplanung, der über katastrophale Ereignisse hinausgeht. Mehr Gewicht auf häufigere Ausfälle legen, die Organisationen besser kontrollieren und mildern können.
3. Abhängigkeitsmapping
Erstellung von Abhängigkeitsdiagrammen, die alle Middleware-Komponenten, Datenbanken, Cloud-Dienste und Integrationspunkte abbilden, um sie für Resilienz zu architekturieren und in die Zuverlässigkeits- und Katastrophenwiederherstellungsplanung einzubeziehen.
4. Kontinuierliche Verfügbarkeit
Der Ansatz der kontinuierlichen Verfügbarkeit konzentriert sich darauf, Anwendungen, Dienste und Daten jederzeit und auf allen Serviceebenen verfügbar zu halten, mit minimalen Auswirkungen bei einem Ausfall.
5. Resilienz durch Design
Die Anwendung selbst sollte von Grund auf resilient sein. Infrastrukturresilienz allein reicht nicht aus, um die von den Endbenutzern erwarteten Dienste ohne Ausfallzeiten zu liefern.
6. Automatisierung der Katastrophenwiederherstellung
Die Implementierung einer vollständig (oder nahezu vollständig) automatisierten Katastrophenwiederherstellung bietet die Grundlage, um aggressive Wiederherstellungszeitziele zu erreichen und ermöglicht es, die DR routinemäßig zu testen.
7. Resilienzstandards
Adoption von Resilienzstandards über Architektur und DR hinaus. Resiliente Systeme erfordern, dass Teams sich auf Qualität, Automatisierung und kontinuierliche Verbesserung konzentrieren und Qualität in den gesamten Lebenszyklus einer Anwendung einfließen lassen.
8. Bevorzugung von Cloud-nativen Lösungen
Cloud-Anbieter bieten eine umfassende Palette an Lösungen zur Verbesserung der Resilienz. Wo möglich, sollten I&O-Führungskräfte diese Lösungen nutzen, anstatt eigene Alternativen zu erfinden und noch mehr Komplexität hinzuzufügen.
9. Fokus auf Geschäftsfunktionen
Statt nur daran zu denken, bei einem Ausfall auf ähnliche Systeme umzusteigen, sollten Unternehmen auch einfachere IT-Lösungen oder Ersatzanwendungen in Erwägung ziehen. Diese sollten gerade so viel können, wie unbedingt nötig ist, um die wichtigsten Geschäftsabläufe aufrechtzuerhalten.
www.gartner.com