Disaster-Recovery-Simulation

Der Tag, an dem das Rechenzentrum stillstand

Wenn es darum geht, auf den kompletten Ausfall des Rechenzentrums vorbereitet zu sein, sind regelmäßige Disaster-Recovery-Tests entscheidend. Hierbei gilt es, ein Team auf alle Eventualitäten vorzubereiten. 

Das Problem ist, dass nicht immer die nötige Zeit und die Ressourcen zur Verfügung stehen, um ein Katastrophenszenario ausreichend zu testen. In vielen Unternehmen ist das erste Mal, dass ein Krisenstab zusammenkommt, der Zeitpunkt, wenn der Ernstfall bereits gegeben ist. Deswegen rät Unternehmen Tabletop-Workshops einzusetzen, um Schulungen zu hypothetischen Vorfällen durchzuführen und ihre Disaster Recovery- und Response-Strategie zu stärken. Rubrik, Experte für Cloud Data Management, erläutert beispielhaft einen solchen Workshop:

Anzeige

Tipps für die Durchführung des Tabletop-Workshops

Jeder Workshop hat einen Moderator, der die Übung leitet, und fünf bis zehn Teilnehmer im Kernteam und erweiterten Krisenteam, um das Szenario in Rollen durchzuspielen. Die Teilnehmer müssen dabei nicht unbedingt ihre eigentliche Rolle im Unternehmen spielen, sondern gemeinsam als Gruppe arbeiten, um die Katastrophe anzugehen.

Eines der Hauptziele eines Tabletop-Workshops ist es, Gruppendiskussionen zu fördern, die Lücken in der aktuellen DR-Strategie aufdecken. Der Moderator liest jedes Segment vor, und dann haben die Teilnehmer fünf Minuten Zeit für die Gruppendiskussion. Die Teilnehmer können in dieser Zeit kurz nach weiteren Details fragen, um die Situation besser zu verstehen. Um dem Moderator während der Gruppendiskussionen zusätzlichen Hintergrund zu liefern, bieten die Abschnitte mit den Anmerkungen des Moderators unterstützende Informationen. Diese Hinweise tragen auch dazu bei, das Szenario interaktiv und leicht unvorhersehbar zu machen. Details können nach Belieben ergänzt oder reduziert werden.

Nach den Gruppendiskussionen und vor dem nächsten Szenario sollte das Team den aktuellen Status bewerten. Es wird empfohlen, die folgenden Statusfragen auszudrucken und der Gruppe zur Referenz zu geben:

Anzeige
  • Was ist Ihre Priorität in diesem Szenario?
  • Welche zusätzlichen Informationen benötigen Sie?
  • Wie sieht die Eskalationskette aus?
  • Was sieht die Kommunikationsstrategie aus?
  • Ist das ein Notfall? Wer muss an dieser Stelle informiert werden (z.B. CIO, CEO, PR-Abteilung, Kunden/Lieferanten, Strafverfolgung, Medien)?

Während ihrer Diskussion sollte die Gruppe die vereinbarte Vorgehensweise für diese Punkte festhalten. Sie sollte dann das Feedback sowie eine Begründung dafür, wie und warum sie diese Entscheidungen getroffen haben, an den Moderator weitergeben. Nun kann der Workshop starten:

Fiktives Hintergrundszenario

Ein mittelständisches Unternehmen stellt Geräte der Unterhaltungselektronik her. Das Unternehmen verfügt über zwei Standorte mit Rechenzentren, die jeweils über eine standortübergreifende Replikation verfügen. IT, Helpdesk und viele Geschäftsfunktionen sind in der Hauptstelle zusammengefasst. In den letzten zwei Jahren waren drei Personen für die IT-Sicherheit verantwortlich. Viele Sicherheitsfunktionen wurden an einen Managed Security Service Provider (MSSP) ausgelagert, einschließlich Protokollanalyse, Verwaltung von Endpunkt-Sicherheitsrichtlinien, Änderungsmanagement der Firewall und Reaktion auf Vorfälle.

Vor einigen Wochen berichteten Mitarbeiter erstmals über zwei verschiedene Wellen verdächtiger E-Mails. Die erste Welle waren Phishing-E-Mails mit Anweisungen zum Besuch einer Website. Diese wurden an das externe MSSP-Response-Team weitergeleitet, das berichtete, dass die Website tatsächlich einen Zugang für Drive-by-Malware darstelle. Sie schickten eine Probe der Malware an den Anbieter der Endpunkt-Sicherheitslösung, damit die Signaturen aktualisiert werden konnten, falls jemand infiziert wurde. Der zweite Vorfall betraf Phishing-Mails und war viel gezielter. Das Response-Team besuchte die propagierte Website und berichtete über nichts Ungewöhnliches, schickte aber trotzdem eine unternehmensweite E-Mail, um wachsam zu sein.

Das saisonale Geschäftshoch stand bevor, und die neue Produktversion sollte ab heute ausgeliefert werden. Die Pre-Release-Geräte hatten zuvor von den Medien positive Bewertungen erhalten, und die Bestellungen nahmen bereits zu. Das Marketing hatte bereits eine integrierte Cyber-Monday-Kampagne für die Online-Händler und In-Store-Materialien sowie spezielle Incentives für die stationären Elektronikhändler gestartet.

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Der kritische Tag

8:00 Uhr: Netzwerke, Firewalls und Router funktionieren alle normal. Die Wireless Access Points im Logistikzentrum weisen keine Fehler auf. Plötzlich ist das Active Directory ausgefallen, der Domain-Name-Server löst auf Anfrage von Clients die Namen in IP-Adressen auf. Der Internetzugang funktioniert, ist aber sehr langsam. Über SNMP überwachte Anwendungen reagieren auf Berichte, und die Server sind in vSphere in Betrieb. Die Untersuchung der ERP/SCM-Datenbank zeigt, dass sie verfügbar ist.

9:00 Uhr: Die ERP/SCM-Datenbank wurde von gezielter Ransomware getroffen. Da das ERP/SCM-System offline ist, ist der Versand komplett ausgefallen. Die Aufträge werden alle über dieses System verwaltet, und es gibt nur sehr wenige parallele papierbasierte Prozesse. Wenn das Team beschließt, ein Backup wiederherzustellen, dann wird es feststellen, dass die Backups abgeschlossen sind, und denken, dass es nur ein paar Stunden Arbeit verliert, die manuell neu eingegeben werden kann. Dies ist jedoch nicht der Fall. Die Datenbank wurde vor Wochen verschlüsselt, und die Schlüssel wurden heute Morgen von den Angreifern vom Datenbankserver entfernt. Dadurch sah alles bisher normal aus, so dass die IT-Mitarbeiter den anomalen Anstieg des Speicherverbrauchs vor einigen Wochen nicht bemerkten, da sie nicht daran dachten, die Backup-Berichte zu überprüfen.

Das Einleiten einer Wiederherstellung an dieser Stelle dauert mehrere Stunden. Ein Failover auf den anderen Standort wird dieses Problem nicht beheben, da die Replikationsjobs die verschlüsselten Versionen repliziert haben und Snapshots nur für kurze Zeit gespeichert werden. Mit anderen Worten, jeder Versuch einer Behebung an dieser Stelle ist Zeitverschwendung, wobei dies dem Team im Test nicht mitgeteilt wird.

9:15 Uhr: Typischerweise werden zu dieser Zeit acht LKWs pro Stunde von den sechs Laderampen mit Ladezeiten von durchschnittlich 45 Minuten bedient. Jeder LKW kann 30 Paletten aufnehmen, die mit jeweils 108 Produkteinheiten beladen sind. Jede Einheit ist 299 Euro im Einzelhandel wert.

9:30 Uhr: Der MSSP hat die verräterischen Zeichen während der Phishing-Angriffe übersehen und ist sich der Sicherheitsverletzung und des verdächtigen Datenverkehrs, der in den letzten Wochen stattgefunden hat, nicht bewusst. Erst als der DDoS-Angriff begann, führte jemand beim MSSP eine Protokollanalyse durch und sah, dass er die Warnungen verpasst hatte.

10:00 Uhr: Der DDoS-Angriff ist beendet, es folgt die Lösegeldforderung. An diesem Punkt findet noch immer eine Exfiltration statt. Ransomware ist eine Tarnung für eine andere Operation, aber der Schaden ist insgesamt enorm. Das Team sollte sich dennoch die Zeit nehmen können, die es braucht, um zu diskutieren und zu entscheiden, was Priorität 1, Priorität 2 etc. ist. Tatsächlich ist der geschäftskritische Versand verspätet und gefährdet. Wenn sich das Team entscheidet, das Lösegeld zu zahlen, dann würde es den Verschlüsselungscode dennoch nicht erhalten, denn das Ziel der Angreifer war die Zerstörung.

Die ERP/SCM-Datenbank sollte als oberste Priorität wiederhergestellt werden, aber die Wiederinbetriebnahme des Active Directory und die Identifizierung eines noch laufenden Angriffs sollte ebenfalls unter den Top 3 sein. Danach sind die Prioritäten subjektiv, es geht mehr um den Prozess, wie die Teammitglieder zu den Entscheidungen kommen. Die Teilnehmer sollten auch entschieden haben, ob PR, Kunden, Presse und Strafverfolgung inzwischen einbezogen werden sollen.

Rechnungen und Logistikdaten können entweder von den Mail-Servern (sobald das Active Directory wieder online ist) oder von den Laptops des Vertriebsteams wiederhergestellt werden. Dieser über den Tellerrand hinausgehende Schritt wird es ermöglichen, die Auftragsliste manuell zusammenzusetzen und dieses Szenario effektiv zu bewältigen. Es wird dennoch immer noch zu Auftragsverlusten und erheblichen Verzögerungen kommen.

Die Nachbereitung

Sobald das Team jedes Szenario abgeschlossen hat, empfiehlt Rubrik die Übung mit einer Diskussion über gelernten Lektionen abgeschlossen. Diese Lektionen lassen sich dann für das eigene Unternehmen heranziehen, um sie auf die eigene DR-Strategie anzuwenden, um besser vorbereitet zu sein, wenn eine Katastrophe eintritt.

www.rubrik.com

Anzeige

Artikel zu diesem Thema

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.