Backup ist nicht das Lieblingskind von IT-Verantwortlichen, die Archivierung noch viel weniger. Bei der digitalen Archivierung werden nicht aktiv genutzte Daten, zur langfristigen Aufbewahrung auf eine separate Speicherebene verschoben, meist auf Low-Cost-Medien. Klassischerweise waren das nach der Zelluloid-Ära (Microfiche) nicht überschreibbare Magnetbänder. Heute sind HDDs, Flash-Medien und Cloud-Ressourcen mit Immutable-Funktionen eine Alternative.
Die Archivierung von Daten ist keine Entscheidung, sondern Pflicht. Unterschiedliche Daten haben auf Grund gesetzlicher Vorschriften unterschiedliche Aufbewahrungsfristen und Unternehmen müssen im Falle von behördlichen Anfragen oder Ermittlungen diese vorgelegen können. Und zwar so, wie sie generiert wurden. Gleichzeitig verfolgen Unternehmen das wirtschaftliche Bestreben, ihren teuren Primärspeicher zu entlasten. Mit der Nivellierung der Kosten für die unterschiedlichen Speicher-Formate kommen so Begriffe wie »Nearline-Archive« auf. Zeitnah nutzbar, aber »immuntable«.
Das zusammen mit der in Folge der Digitalisierung einhergehenden Datenflut macht die Umsetzung der Archivierungspflicht nicht einfacher. Unternehmen müssen Datenarchive nach wie vor indexieren, was mit mehreren Aufgaben verbunden ist. Zunächst gilt es festzulegen, welche Daten archiviert werden müssen, welche archiviert werden wollen, und welche für einen bestimmten Zeitraum vorgehalten sein sollen.
WORM-Medien (Write Once Read Many) sind dabei eine klassische Lösung für Nicht-Wiederbeschreibbarkeit. Diese wird auf Tapes oder Disks Hardware-nativ und Software-emuliert umgesetzt. Objektspeicher in einer lokalen oder öffentlichen Cloud sind eine neue Kategorie. Mit einigen Fragezeichen.
Cloud-Archive lassen sich als immutable definieren und entsprechen so der Forderung der Unveränderbarkeit. Gleichzeitig bewegen sie sich in einem Grau-Raum: Der ursprüngliche Medien-Bruch (Air-Gap) bei einem Online-Archiv ist diskutabel, räumlich erfüllt, aber nicht ein Datensatz, der in einem Tresor ausgelagert ist. Die Anbieter sind bemüht, sich vor externen Angriffen wie etwa Ransomware zu schützen.
In Archive müssen mitunter Block-basierte Datenbankänderungen landen, E-Mail-Kommunikationen und Dokumentendateien, aber auch immer größere Mengen an unstrukturierten Daten. Das setzt Archivierung auf die Agenda nicht nur von kleinen und mittleren Unternehmen, globale Player und Organisationen des öffentlichen und behördlichen Gewerks haben damit noch mehr zu schaffen. Archivierte PACS-Daten in einem Krankenhaus werden hoffentlich nie gebraucht, gut aber, wenn sie schnell zur Verfügung stehen.
Archivierung ist alternativlos
Kein Unternehmen kann und darf sich leisten, keine Archivierungsstrategie zu verfolgen. Das ist gesetzlich vorgeschrieben. Nun stellt sich die Frage, wie man diese Vorgaben wirtschaftlich umsetzt: Offensichtlich ist die Entlastung performanter, I/O-getrimmter und entsprechend kostspieliger Primärspeicher. Offensichtlich ist auch die Ausrichtung eines Archivs auf hohe Kapazität, maximale Skalierbarkeit (nach Volumen) und minimale Kosten.
Gleiches gilt für das Backup. Beide profitieren von Deduplizierung und Kompression bei der Erstellung. Dennoch sind drei Backups noch kein Archiv. Während das Backup auf schnelle Wiederherstellung des letzten best-möglichen Zustands ausgerichtet sein sollte, hat das Archiv eine andere Aufgabe. Und zwar die hoffentlich nicht notwendige Wiederherstellung eines Datensatzes zum Zeitpunkt X. Backup bzw. die Wiederherstellung (Disaster-Recovery) benötigen Speed, Archive verfolgen einen langfristigen Datenaufbewahrungszweck. Entsprechend komplex ist die Auswahl der Technologien.
Objekte – was ist Offline-Datenspeicherung?
Datenarchive treten also in unterschiedlichen Formen auf, je nach Gewichtung zwischen Aufbewahrung, die man am besten niemals anfassen muss, Erreichbarkeit der Daten und aktiver Nutzung abseits des Geschäftsbetriebs. Dort etablieren sich Analytics- und Data-Mining.
Einige Systeme nutzen die Online-Datenspeicherung, bei der die Archivdaten auf Tape- oder Platten-Systemen (inkl. Flash) abgelegt werden, wo sie leicht zugänglich und sicher geschützt sind. HDD-basiert sind beispielsweise auch die RDX-Wechselplatten, die Mittelständler adressieren. Diesen Offline-Lösungen ist größtenteils inhärent auf Grund des Medienbruchs sowie durch eine Einsparung der laufenden Kosten oder Energiekosten.
Archive sind häufig Datei-basiert, und so erfreuen sich Objektspeicher wegen ihrer Multiplizierbarkeit wachsender Beliebtheit. Sie sind eine relativ neue Kategorie jenseits von Blocks und Files. Sie sind die neue Komponente im Archiving. Objekte sind prinzipiell in einer Cloud, damit online, Replicas einfach zu erstellen. Bei öffentlichen Angeboten für ein Archiv muss man allerdings die Dauer-Kosten betrachten. Beim Marktführer kostet die Sicherung eines TByte einen US-Dollar, die Rückspeicherung schon neun innerhalb von 24 Stunden, zuzüglich laufender Kosten.
Archivierung ist Data-Lifecycle-Management
Hot- oder Cold-Data? Diese Entscheidung wird durch Archivierungs-Tools automatisiert, natürlich unterstützt von Richtlinien, die Unternehmen oder Speicheradministratoren vorgeben. Eine professionelle Archivierungs-Software löscht Daten automatisch aus den Archiven, sobald sie die von der Richtlinie der Organisation vorgeschriebene Lebensdauer überschritten haben.
Viele Datenverwaltungs-Plattformen haben in ihren Produkten Archivierungsfunktionalität inkludiert. Je nach Anforderung kann dies ein Kosten-effizienter Weg sein, Daten zu archivieren. Überprüfen muss letztlich jeder, ob er damit gesetzeskonform agiert. Strafen für die Nichteinhaltung von gesetzesverlangten Vorgaben können Schadenersatz, Bußgelder und ungültige Verträge betreffen. Einige Beispiele für Vorschriften, an die sich Unternehmen international halten müssen, sind der Sarbanes-Oxley-Act (SOX) und die General-Data-Protection-Regulation (GDPR, DSGVO).