Ohne eine präzise und vollständige Datenklassifizierung ist es unmöglich, Risiken zu priorisieren, Gefahren zu beseitigen oder nachgelagerte Sicherheitskontrollen zu aktivieren. Laut Gartner scheitern mehr als 35 % der Datensicherheitsprojekte an einer unzureichenden Erkennung und Klassifizierung.
Eine umfassende und korrekte Klassifizierung bildet die Basis der Datensicherheit. Nur wenn man weiß, welche Daten (besonders) schützenswert sind, lassen sich entsprechende Maßnahmen umsetzen. Deshalb ist die Datenklassifizierung ein grundlegendes Element einer starken Sicherheitsstrategie. Jedes Unternehmen ist anders und nutzt eigene Datentypen und -formate. Deshalb können nur durch eine Kombination bewährter Klassifizierungstechnologien und trainierbarer KI-Klassifikatoren präzise Ergebnisse erzielt werden. Durch das stetige Datenwachstum, das durch den Einsatz von KI-Assistenten wie Microsoft Copilot noch beschleunigt wird, gewinnt darüber hinaus auch das Thema Skalierbarkeit eine immer größere Bedeutung.
Worauf es bei der Klassifizierung ankommt…
Eine moderne Datenklassifizierungslösung sollte drei grundlegende Anforderungen erfüllen:
- Vollständigkeit: Die Scans müssen sämtliche Datenspeicher komplett abdecken. Zahlreiche Tools begnügen sich mit Samples, die aber aus Sicherheitssicht zu viele blinde Flecken hinterlassen.
- Kontextbezug: Die Lösung muss in der Lage sein, wichtigen Kontext herzustellen. Nur so lässt sich feststellen, ob sensitive Daten offengelegt, verschoben, falsch gekennzeichnet oder angegriffen werden. So können beispielsweise durch die Analyse der Metadaten wesentliche Fragen wie „Welche Daten sind sensitiv, verfügen über zu weit gefasste Zugriffsrechte oder werden nicht mehr benötigt?“ beantwortet werden.
- Aktualität: Es ist wichtig, sofort zu erkennen, wenn ein Dokument erstellt oder geändert wird, um so eine lückenlose Transparenz in Echtzeit zu gewährleisten. Durch inkrementelle Echtzeit-Scan-Methoden werden nur die Daten gescannt, die seit dem letzten Scan neu erstellt oder geändert wurden. Dies spart wertvolle Zeit und Ressourcen.
Zahlreiche Lösungen bieten nur einen begrenzten oder gar keinen Kontext in Bezug auf Exposition, Identität oder Datenzugriffsaktivitäten, so dass sie neue oder geänderte Daten nicht erkennen können, ohne zeitaufwändige neue Scans durchzuführen. Und gerade bei den Scans trennt sich die Spreu vom Weizen: Viele Lösungen scheitern bei größeren Umgebungen von mehreren Petabytes, die angesichts des rasanten Datenwachstums mittlerweile mehr und mehr die Regel werden. Scans die sich aufhängen oder tatsächlich monatelang laufen, stellen ein enormes Sicherheitsrisiko dar.
… und wie KI dabei helfen kann
Mit dem KI-Boom kamen schnell zahlreiche Lösungen auf den Markt, die einerseits noch nicht ganz ausgereift und andererseits sehr stark auf allgemeine LLMs angewiesen sind. Eine präzise und gesetzeskonforme Datenklassifizierung sollte folgende Merkmale aufweisen:
- Minimale Trainingsanforderungen: KI-Modelle der ersten Generation benötigten Hunderte oder Tausende von echten Positiv- und Negativbefunden, um kundenspezifische Klassifikatoren zu trainieren. Und trotz der umfangreichen Trainingsdatensätze mangelte es ihnen häufig an Präzision. Moderne trainierbare KI-Klassifikatoren hingegen benötigen nur sehr wenige echte Positivbefunde, um eine hohe Genauigkeit zu erreichen.
- Datenschutzkonformes lokales Scannen: Ineffizient eingesetzte KI kann erhebliche Rechenleistung erfordern. Deshalb müssen oftmals die Unternehmensdaten zur Klassifizierung an die Cloud-Computing-Infrastruktur des Anbieters gesendet werden. Innovative KI-Modelle sind so effizient, dass sie auf lokalen Rechnern betrieben werden können. Die Kundendaten müssen zum Scannen die Umgebung nicht verlassen. Gerade in Bezug auf Compliance-Anforderungen stellt dies einen enormen Vorteil dar.
- Transparenz und Flexibilität: Bei KI-Lösungen der ersten Generation lässt sich nicht erkennen, ob die KI-Modelle die erforderlichen Datensätze konsistent identifizierten, insbesondere wenn sie mit Stichproben kombiniert wurden, wie es bei vielen Anbietern der Fall ist. Wird deutlich, dass die erforderlichen Datensätze nicht konsistent identifiziert werden, kann man lediglich auf die Hilfe des Anbieters vertrauen, da die meisten KI-Modelle Black Boxes sind. Neue Ansätze hingegen sind anpassungsfähig, transparent und leicht zu validieren.
Die Kombination macht’s
Kaum ein Thema hat in den letzten Jahren so einen Hype ausgelöst wie die künstliche Intelligenz. Im Gegensatz zu den meisten vorangegangenen Trends, die sich nach einer gewissen Zeit abgeschwächt oder gar aufgelöst haben, wird die KI bleiben. Sie wird alle Gebiete unseres Lebens durchdringen, nicht nur in der IT und der Cybersecurity. Und trotzdem ist sie kein Allheilmittel und Lösung sämtlicher Probleme. So ist Künstliche Intelligenz sehr gut darin, Kontext zu erkennen. Gleichwohl ist sie bei der Identifizierung zahlreicher Datenelemente weniger effizient und präzise als regelbasierte Klassifizierungsmethoden. Dies gilt beispielsweise für Kreditkartennummern, Anmeldedaten, Kontonummern und andere Identifikatoren.
Deshalb ist der Schlüssel für erfolgreiche Klassifizierungsprojekte eine Kombination beider Methoden. Tests zeigen, dass durch das Hinzufügen von trainierbaren Klassifikatoren zu bestehenden Klassifizierungsrichtlinien die Standardgenauigkeit deutlich gesteigert werden kann und sowohl falsch negative als auch falsch positive Ergebnisse reduziert werden. Kombiniert man mehrere Techniken, lassen sich Genauigkeit und Leistung maximieren und dabei (durch die Automatisierung) die Kosten reduzieren.
Die richtige Strategie zur Datenklassifizierung kann Unternehmen helfen, Verstöße zu verhindern, Vorfälle schnell zu untersuchen und sicherzustellen, dass sie die immer strengeren Vorschriften einhalten. Durch die Konzentration auf Abdeckung, Genauigkeit und Skalierung kann eine innovative Datenklassifizierungs-Lösung helfen, die größten Sicherheitsrisiken praktisch ohne manuellen Aufwand zu bewältigen.