Bei der Künstliche-Intelligenz-Strategie der Bundesregierung spielen Datenpooling und Datenkooperationen eine wichtige Rolle. Welche ethischen und rechtlichen Probleme können dabei auf auftreten? Liefert Federated Machine Learning die Antwort?
Vergangene Woche hat die Bundesregierung auf dem Digitalgipfel in Nürnberg ihre im Frühjahr angekündigte „Strategie Künstliche Intelligenz“ vorgestellt. Bereits im Sommer hatte man sich durch ein Eckpunktepapier in die Karten schauen lassen. Ziel der Strategie ist es demnach, Deutschland auf Europäischer Ebene zu einer treibenden Kraft im Bereich der Künstlichen Intelligenz (KI) zu entwickeln. Am Ende eines langen Prozesses solle sogar eine KI „made in Europe“ stehen.
it-daily hat mit dem Rechtsanwalt Dr. Markus Kaulartz von CMS zu den rechtlichen Komponenten der KI-Strategie gesprochen.
Herr Kaulartz, um gut funktionierende KI-Systeme zu haben, müssen diese mit Daten gefüttert und angelernt werden. Die benötigten Datenmengen hierfür sind immens und nicht alle Unternehmen mit entsprechender Technologie haben Zugriff auf solche Daten. Im Strategiepapier der Bundesregierung ist von möglichen Datenkooperationen die Rede. Insbesondere für Startups und KMU sollen hier Level-Playing-Field Ansätze verfolgt werden. Wie beurteilen Sie diese Idee?
Markus Kaulartz: Die Idee ist im Grunde ganz hervorragend, denn Künstliche Intelligenz – unabhängig davon, was wir im Detail darunter verstehen – verlangt tatsächlich einen großen Datenpool. Das ist ja gerade der Grund, weswegen KI erst jetzt so richtig im Trend liegt: Die Rechenleistung, die Datenleitungen, etc. waren früher einfach nicht ausreichend, um große Datenmengen so zu analysieren, wie man es heute kennt. Der Datenpool muss allerdings erst geschaffen werden, sodass Datenkooperationen sicherlich sinnvoll sind.
Aus rein rechtlicher Sicht gilt bei allen neuen Technologien aber auch hier, dass sie nicht schrankenlos eingesetzt werden dürfen. Ein seit Jahrzehnten entwickelter Rechtsrahmen gilt auch für Künstliche Intelligenz und es gibt keinen Grund, weswegen zum Beispiel die Privatsphäre nicht mehr geschützt sein soll, nur weil auf dem Algorithmus „KI“ steht. Es mag zwar hier und da Nachjustierungen geben, im Großen und Ganzen haben aber neue Technologien noch nie Schutzgesetze abgeschafft. Das müssen Datenkooperationen beachten.
Das Papier geht darauf auch ein. Es heißt dort zum Beispiel, dass die Daten bei öffentlichen Verwaltungen dahingehend geprüft werden sollen, ob sie, rechtlich und ethisch unbedenklich für solche Datenpools zur Verfügung gestellt werden können. Sind solche Daten rechtlich sicher bereitstellbar und eignen sie sich überhaupt zum Anlernen von KI-Anwendungen?
Markus Kaulartz: In der Praxis besteht die Herausforderung darin, die Datenpools so anzulegen und anzuzapfen, dass zum Beispiel personenbezogene Daten und Geschäftsgeheimnisse geschützt werden. Das lässt sich mit einigen Kniffen aber ganz gut hinbekommen, sogar ohne, dass die Qualität der aggregierten Daten merklich nachlässt. Ein gutes Beispiel ist der Bereich Federated Machine Learning: Hier speist sich der KI-Algorithmus aus vielen kleinen Datenquellen, wie zum Beispiel Smartphones, die ihre Daten in aggregierter Form bereitstellen. Die Aggregierung muss dabei den Prinzipien der Secure Aggregation folgen, damit keine Rückschlüsse auf die Rohdaten gezogen werden können. Das ist technisch ganz und gar nicht trivial. Hier müssen Juristen und Entwickler Hand-in-Hand arbeiten.
IT-Sicherheit ist im Bereich KI auch ein wichtiges Kriterium. Bisher stützt man sich bei der Regulierung von IT-Sicherheit auf sogenannte Kritische Infrastruktur wie etwa im IT-, Gesundheits- oder Energiebereich. Die Bundesregierung meint laut Papier, dass diese Regulierung nicht mehr ausreiche. Wo erwarten Sie die nächsten Regulierungsschritte?
Markus Kaulartz: Ich meine, dass die Silostruktur, wie sie durch das IT-Sicherheitsgesetz zum Beispiel in Bezug auf Kritische Infrastrukturen umgesetzt wurde, wenig dazu beiträgt, ein ganz grundlegendes Verständnis von IT-Sicherheit in allen Köpfen zu schaffen. Das fängt doch bei der Passwortlänge an, geht über nichtverschlüsselte USB-Laufwerke und endet bei E-Mails, die nicht mittels TLS versandt werden – alles heute noch Alltag.
IT-Sicherheit muss immer im angemessenen Verhältnis zum Risiko stehen, wobei sich das Risiko aus Eintrittswahrscheinlichkeit und Schadenshöhe definiert. Werden zum Beispiel Daten, die Grundlage für Maschinelles Lernen sind und aus denen Algorithmen Muster und Gesetzmäßigkeiten erkennen sollen, manipuliert, so ist das Erlernte fehlerhaft und der Algorithmus liefert falsche Ergebnisse. Nun die richtigen von den falschen Lerndaten zu unterscheiden, ist nicht trivial. Schäden können immens sein. Die Anforderungen an die IT-Sicherheit sind in solchen Fällen daher sicherlich hoch. Im Falle von Federated Machine Learning, wo eine Datenquelle mit fehlerhaften Daten praktisch nicht ins Gewicht fällt, mag man andere Maßstäbe ansetzen. Am Ende ist es eine Bewertung des Einzelfalls.
Alle reden von KI. Hand aufs Herz: Spielt KI in der Praxis überhaupt schon eine Rolle, oder sind das Meiste nicht doch nur Forschungsprojekte?
Markus Kaulartz: Das Problem ist, dass der Begriff KI überhaupt nicht definiert und kaum abgrenzbar ist. Viele Unternehmen ordnen ihre Software daher dem Bereich KI zu, auch wenn der Lernprozess der Software völlig banal ist. Wir haben es hier also sicherlich auch mit einem Buzzword zu tun. Maschinelles Lernen auf Grundlage von gigantischen Datenmengen spielt in der Praxis aber natürlich eine immer größere Rolle, und auch der Rechtsberatungsbedarf nimmt zu. Die Themen sind häufig verwandt: Wer die Weichen frühzeitig stellt, spart sehr viele Ressourcen. IT-Security by Design, Privacy by Design, kurz: Compliance by Design lässt sich in einer späten Phase einer KI- und sonstigen Softwareentwicklung nur noch mit großen Schmerzen umsetzen.
Dr. Markus Kaulartz ist Rechtsanwalt bei CMS Deutschland und hat sich auf Rechtsfragen von Zukunftstechnologien spezialisiert. Zu seinen Mandanten zählen sowohl global vertretene Unternehmen als auch Startups in den Bereichen Blockchain, Künstliche Intelligenz mit Schwerpunkt Federated Machine Learning, Big Data und Internet of Things.