KI kann bei wichtigen Entscheidungsprozessen helfen – wenn sie diese vorurteilsfrei, antidiskriminierend und ethisch, kurz „unbiased“, trifft. Welchen Beitrag kann dabei Open Source Data Science leisten?
KI-Technologie bewertet schon heute Stellenbewerber, genehmigt Kreditanträge und deckt Finanzbetrug auf. Sie ist also vielfach also bereits fester Bestandteil unseres Alltags, auch wenn ihre Präsenz nicht immer auf den ersten Blick zu erkennen ist. Die Idee hinter künstlicher Intelligenz ist die, dass sie Aufgaben übernimmt, die zuvor Menschen ausgeführt haben. Und genau wie bei Menschen kann es passieren, dass künstliche Intelligenz ihre Entscheidungen nicht völlig wertfrei trifft, was schwerwiegende Folgen für Betroffene und die Gesellschaft haben kann.
KI hat Vorurteile, weil Menschen sie haben
Der Grund: KI-Algorithmen „lernen“, indem sie Trainingsdatensätze auf Muster und Regeln hin analysieren, in die bereits unbewusst menschliche Vorurteile eingeflossen sind. Die Folge: Bestimmte Diskriminierungsmuster wiederholen sich – selbst wenn das nicht die Absicht der Ingenieure ist. Diese „Voreingenommenheit“ bzw. „Bias“ der KI – z. B. aufgrund der Verwendung von Datensätzen einer nicht repräsentativen Bevölkerungsgruppe – ist meist nicht sofort zu erkennen, was Korrekturen erschwert. Folge können Gesichtserkennungsprogramme sein, die Menschen mit nicht weißer Hautfarbe nicht identifizieren können, Kreditvergabeverfahren, die Menschen mit einer bestimmten Herkunft gegenüber anderen benachteiligen, und Bildgeneratoren, die nur Bilder von weißen Männern anzeigen, wenn sie eine Führungskraft darstellen sollen.
Weil Unternehmen sich zunehmend auf KI-Tools verlassen, um Routineaufgaben zu automatisieren, ist es heute wichtiger denn je, Verzerrungen in der KI zu beheben. Und das nicht nur aufgrund der moralischen Implikationen, sondern auch, um sicherzustellen, dass Unternehmen keine wertvollen Potenziale entgehen. Eine Lösung ist Open Source Data Science. Sie basiert der Arbeit einer globalen Gemeinschaft und ermöglicht es Lösungsanbietern, KI-Tools mit weniger Vorurteilen schnell, kontrolliert und transparent einzuführen.
Wenn Training keinen Meister macht oder: Wie KI Diskriminierung lernt
Viele KI-Algorithmen beruhen auf Wahrscheinlichkeitsrechnung und Statistik. Sie bestehen aus einer Reihe von programmierten Regeln und Berechnungen, die festlegen, wie die KI bestimmte Aufgaben auf der Grundlage der in das System eingegebenen Daten ausführt. Ein „Bias“ tritt auf, wenn die KI ein Ergebnis – z. B. die Kreditwürdigkeit – aufgrund von Merkmalen wie Hautfarbe, Ethnie, Geschlecht, sozioökonomischem Status oder ähnlichem falsch vorhersagt.
Ingenieure testen die KI anhand eines Trainingsdatensatzes, der vor der Einspeisung in das System bereinigt und kuratiert wird. Die Trainingsdaten können dabei derart verzerrt sein, dass sie bestimmte Gruppen begünstigen oder benachteiligen. So könnten Daten, die in eine KI-basierte HR-Plattform eingespeist werden, dem Algorithmus vermitteln, dass die meisten Personen, die für Führungspositionen eingestellt werden, einen Abschluss von einer Privatuniversität haben. Die KI-Lösung beginnt also alle Bewerberinnen und Bewerber, die dieses Kriterium nicht erfüllen, auszusortieren. Dabei sind die ursprünglichen Daten faktisch korrekt. Vielmehr replizieren sie das Verhalten der menschlichen Personalverantwortlichen, die traditionell Absolventen bestimmter Hochschulen den Vorrang geben.
KI-Modelle können sich im Laufe der Zeit verändern
In einem anderen Szenario „driftet“ das KI-Modell erst im Laufe der Zeit. So kann es sein, dass die ursprünglichen Trainingsdaten und die daraus resultierenden Algorithmen völlig frei von Bias und Werturteilen sind. Die KI behandelt zu Beginn also alle Bewerbenden gleich. Im Laufe der Zeit „lernt“ sie jedoch, dass z. B. Bewerberinnen und Bewerber, die in ihrem Lebenslauf Wörter wie „Führungspersönlichkeit“ und „proaktiv“ verwenden, eher eingestellt werden, so dass sie anfängt, automatisch Bewerbungen von Frauen abzulehnen, die zurückhaltender sind und sich selbst eher nicht als Führungspersönlichkeiten bezeichnen. Dies ist sogar noch wahrscheinlicher, wenn der Bewerberpool in Bezug auf die Bewerberanzahl traditionell auf ein bestimmtes Geschlecht oder eine bestimmte Bevölkerungsgruppe ausgerichtet ist. Wenn die KI mehr Bewerbungen von Männern als von Frauen verarbeitet, „driftet“ sie in Richtung der Bevorzugung von Merkmalen, die mit Männern assoziiert werden.
Drei Gründe für den Einsatz von Open Source Data Science in der KI-Entwicklung
Open Source Data Science bietet ein vielversprechendes Modell zur Minimierung von KI-Bias, da sie Zusammenarbeit, Vertrauen und Transparenz ermöglicht. In geschlossenen oder proprietären Systemen hat der Ingenieur zwar die absolute Kontrolle, trägt aber auch die volle Verantwortung dafür, wie sich das Modell verhält. In einem offenen System hingegen profitieren die Ingenieure von den Perspektiven, Erkenntnissen und Beiträgen anderer, die an ähnlichen Problemen arbeiten.
1. Einheitliche und offene Code-Basis: Open-Source-KI ermöglicht die Beseitigung von Verzerrungen. Universitäten nutzen KI z. B. um zu entscheiden, welche Studierende Stipendien erhalten und Banken, um Kreditanträge für KMUs zu genehmigen. Auch wenn diese Organisationen unterschiedlichen Branchen angehören, sind die KI-Tools, die sie zur Beurteilung finanzieller Voraussetzungen einsetzen, ähnlich.
In einem offenen System können beide Organisationen eine bestehende KI-Ressource lizenzieren und zu dieser Ressource beitragen. Dadurch verbessern sich die Ergebnisse für alle: Wenn die Universität feststellt, dass ein bestimmtes Modell bestimmte Gruppen von Stipendien ausschließt und es korrigiert, profitieren auch die anderen Lizenznehmer – und letztlich die Menschen, die deren Leistungen in Anspruch nehmen.
2. Mehr Transparenz und Kontrolle: Bei einem offenen Modell besteht Transparenz über die Daten und den Ansatz, die zum Trainieren von KI-Modellen und Algorithmen verwendet werden. Dies ermöglicht es jedem, der einen Beitrag leistet, zu analysieren, ob das Modell im Laufe der Zeit abweicht und gegebenenfalls Korrekturmaßnahmen vorzuschlagen. Je mehr Personen mitwirken, desto schwieriger wird es, das Produkt zu kompromittieren – absichtlich oder aus Versehen.
3. Schnelle Verbesserungen: Verzerrungen manifestieren sich im Code auf unterschiedliche Weise. Kleine interne Teams sind nicht unbedingt in der Lage, Biases in all ihren Formen zu erkennen und zu beseitigen, insbesondere wenn KI-Modelle erst im Laufe der Zeit abdriften. Durch den Einsatz von Open Source arbeiten mehr Personen an einem Projekt. Dadurch sinkt die Wahrscheinlichkeit, dass Verzerrungen unentdeckt bleiben. Und die Geschwindigkeit, mit der das Modell verbessert wird, steigt. Die Mitwirkenden liefern kontinuierlich Korrekturen und Verbesserungen, wodurch die KI-Bias minimiert wird.
Fazit
In allen Branchen verlassen wir uns immer mehr auf KI-Entscheidungen. Unternehmen, die KI einsetzen, sind moralisch und rechtlich verpflichtet, dafür zu sorgen, dass ihre Kunden und Nutzenden nicht durch voreingenommene Algorithmen diskriminiert werden. Tatsächlich ist es denkbar, dass KI-Tools so trainiert werden, dass sie weniger einseitige Entscheidungen treffen als ihre menschlichen Pendants. Ein offenes, transparentes Modell ist dabei ein wichtiger Baustein.