Datenbanksysteme

Testdatenmanagement: Sicher und effizient muss nicht schwierig sein

Datenmanagement

Das Management von Testdaten ist ein integraler Bestandteil des Entwicklungszyklus komplexer Datenbanksysteme. Viele Unternehmen erzeugen die Daten für das Testen ihrer Datenbanken allerdings noch manuell – was sowohl ineffizient als auch riskant ist.

Höchste Zeit also, einen anderen Weg einzuschlagen. Die gute Nachricht: Das ist einfacher als gedacht.

Anzeige

Die Komplexität von Datenbanken nimmt kontinuierlich zu. Es ist daher kein Wunder, dass Unternehmen jede neue Anwendung sowie jede neue Funktion – wie bei anderen Arten von Software auch – intensiv testen müssen. Nur so lassen sich Fehler und Sicherheitslücken vermeiden, die Cyberkriminelle ausnutzen könnten, und die bestmögliche Nutzererfahrung gewährleisten. Auch um Performance-Probleme noch vor dem Deployment in die Produktivumgebung zu erkennen und zu beheben, ist eine möglichst konsequente Testphase Grundvoraussetzung für eine moderne Datenbankentwicklung. Die Qualität dieses Testings steht und fällt mit den Testdaten: Sind sie ungeeignet, also beispielsweise zu generisch oder zu eindimensional, haben die Entwickler ihre Anwendungen zwar getestet. Gehen ihre Datenbanken dann jedoch live, können sie im Betrieb mit realen Daten trotzdem fehlerhaft laufen. Der Grund dafür ist, dass moderne Datenbanken an sich schon komplexe Gebilde sind, Unternehmen mit ihnen jedoch auch extrem vielfältige Datentypen, -größen und -formate verwalten. 

Um ein konsistentes und aufschlussreiches Bild zu erhalten, benötigen Datenbankentwickler daher Testdaten und -szenarien, die ein möglichst breites Spektrum abbilden. Das Testing auf Staging-Systemen sollte mit einem breiten Portfolio an Datentypen und -formaten erfolgen, die möglichst alle auch im Produktiveinsatz vorkommen. Gleichzeitig müssen die Datenbankteams die Leistung und Skalierbarkeit der Datenbanken prüfen und entsprechende Schreib- und Lesevorgänge simulieren, Grenzwerte ausreizen und Transaktionen durchführen. Auch das Testing von Indizes und die Durchführung von Backups und Wiederherstellungen nach einer künstlich erzeugten Downtime sind sinnvoller Bestandteil einer Testphase.

Sicherheit und Datenschutz geht vor – auch beim Testing

Früher machten es sich Unternehmen sehr einfach und verwendeten für ihre Datenbanktests auf Staging-Umgebungen lediglich Snapshots der realen Daten aus dem Live-Betrieb. Dies ist auch heute noch häufig der Fall, doch zum Glück gibt es Alternativen, denn die Verwendung von realen Kunden- und Nutzerdaten auf deutlich schlechter gesicherten Testumgebungen ist allein aus Datenschutzgründen problematisch. Der State of the Database Landscape Report 2025 von Redgate zeigt, dass Unternehmen das Thema Datenschutz immer ernster nehmen. Während im Jahr 2023 rund ein Drittel (35 Prozent) der Firmen keine besondere Herangehensweise etabliert hatten, um sensible Daten ihrer Kunden und Nutzer zu schützen, waren es im vergangenen Jahr nur noch 14 Prozent – eine deutliche Verbesserung und ein Indikator dafür, wie ernst sie das Thema mittlerweile zu Recht nehmen. Der Redgate-Report gibt auch Aufschluss darüber, mit welchen Methoden Unternehmen sensible Daten schützen. Rund ein Drittel limitiert den Zugriff auf die Snapshot-Daten, sodass nur ausgewählte Mitarbeiter darauf zugreifen dürfen. Noch mehr Unternehmen pseudonymisieren oder anonymisieren die Daten ihrer Live-Systeme zu Testzwecken (38 Prozent), während rund 16 Prozent komplett synthetische Testdaten verwenden. 

Anzeige

Trotz dieser ermutigenden Zahlen ist eine Tatsache beunruhigend: Nur 87 Prozent der europäischen Unternehmen befolgen die Bestimmungen der Datenschutzgrundverordnung (DSGVO) über den gesamten Entwicklungszyklus von Datenbanken hinweg. Das ist nicht nur für die Kunden und Nutzer ihrer Produkte problematisch, sondern auch für die Unternehmen selbst, da hohe Strafen in Form von Bußgeldern drohen. Das Compliance-Problem ist unter anderem auch auf den anhaltenden Fachkräftemangel zurückzuführen, oder einfacher ausgedrückt: Unternehmen haben heute einfach zu viele Daten mit zu wenig Personal zu verwalten. Es verwundert also nicht, dass bei der Generierung von Testdaten der Weg des geringsten Aufwandes gewählt wird.

Bildschirm­foto 2025 04 23 um 08.05.13

Künstliche Intelligenz für das Testdatenmanagment

Künstliche Intelligenz wird einen großen Sprung in Richtung sicheres und Compliance-konformes Testdatenmanagement ermöglichen. Die Zukunftstechnologie kann unter anderem bei der Datenmaskierung – also dem Pseudonymisieren und Anonymisieren – helfen. Entsprechende Tools können die Maskierung von sogenannten PII (Personally Identifiable Information)-Daten in Datenbanken automatisieren, ein Prozess, der in drei Schritten abläuft: Klassifizieren, Mappen und Maskieren.

Im ersten Schritt scannt die Software eine Datenbank und identifiziert sensible Informationen, woraufhin sie eine JSON-Datei für die Klassifizierung ausgibt. Beim Mapping übersetzt die Software das Klassifizierungsergebnis in ein Set aus Regeln für die Datenmaskierung und erstellt eine entsprechende JSON-Datei für die Maskierung. Im letzten Schritt wendet die Software die aufgestellten Regeln auf die sensiblen Daten in der Datenbank an und anonymisiert sie, damit sie für das Testing verwendet werden können. Künstliche Intelligenz kann bei entsprechendem Training auch qualitativ hochwertige und realistischere synthetische Testdaten erzeugen. Während bei der Generierung von Testdaten traditionell auch Automatisierung eingesetzt wird, hat der bisher verbreitete Ansatz wenig mit KI zu tun: Entsprechende Tools generieren Testdaten rein auf Basis manuell definierter, fester Muster und Regeln. Gute Werkzeuge, die auf KI basieren, erkennen dagegen realistische Muster in den Datenbeständen und erzeugen daraus synthetische Testdaten, die den realen Daten in nichts nachstehen. 

Die Erzeugung synthetischer Testdaten von hoher Qualität durch KI löst auch ein anderes Problem, mit dem Datenbankentwickler häufig konfrontiert sind: die Aktualität der Testdaten. Das Erstellen von Snapshots von Datenbanken und das Sammeln von Testdaten, ist ein sehr aufwendiger Prozess – so arbeitsintensiv, dass Datenbankteams ihn nur selten im Live-Betrieb durchführen können. Das führt dazu, dass Datenbankentwickler manchmal Tage, in vielen Fällen sogar Wochen auf neue Testdaten warten müssen. Da es höchst fahrlässig wäre, neue Features mit veralteten Datensätzen zu testen, leidet logischerweise die Produktivität der Entwickler. Auch aus diesem Grund ist es sinnvoll auf synthetische Testdaten zurückzugreifen, die von KI erstellt wurden – ganz abgesehen von der automatischen Einhaltung aller Datenschutz- und Compliance-Anforderungen.

Oliver

Stein

Geschäftsführer DACH

Redgate Software

Anzeige

Artikel zu diesem Thema

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.