Penetrantes Crawling

OpenAI-Bot legt Firmen-Seite lahm – „Wie ein DDoS-Angriff“

Bot Suche

Der aggressive Crawling-Versuch des GPTBot brachte die Website eines kleinen 3D-Modell-Anbieters zum Absturz. Der Vorfall wirft Fragen zum Umgang von KI-Unternehmen mit fremden Daten auf.

Ein massiver Crawling-Versuch durch OpenAIs GPTBot hat am vergangenen Samstag die Website des 3D-Asset-Anbieters Triplegangers komplett lahmgelegt. Wie CEO Oleksandr Tomchuk bei TechCrunch berichtet, versuchte der Bot, über 65.000 Produktseiten mit jeweils mindestens drei hochauflösenden Fotos herunterzuladen. „Die Crawler haben unsere Seite regelrecht zermalmt“, so Tomchuk. „Es war praktisch ein DDoS-Angriff.“

Anzeige

Das in der Ukraine ansässige Unternehmen mit US-Lizenz in Tampa, Florida, betreibt nach eigenen Angaben die größte Datenbank für „digitale menschliche Doubles“ – 3D-Modelle, die von realen Menschen gescannt wurden. Diese werden an 3D-Künstler, Spieleentwickler und andere Kunden verkauft, die authentische menschliche Charakteristiken digital nachbilden möchten.

Massive Serveranfragen von Hunderten IPs

Der Bot nutzte laut Analysen des Unternehmens mindestens 600 verschiedene IP-Adressen für seine Crawling-Versuche. „Wir werten immer noch die Logs der letzten Woche aus – möglicherweise waren es noch deutlich mehr“, erläutert Tomchuk. Neben dem Serverausfall während der US-Geschäftszeiten drohen dem Sieben-Personen-Unternehmen nun auch erhöhte AWS-Kosten durch die extreme CPU-Auslastung.

Besonders brisant: Die Website enthält detailliert getaggte Fotos mit Informationen zu Ethnizität, Alter, Körpermerkmalen und anderen Attributen – genau die Art von kategorisierten Bilddaten, die für das Training von KI-Modellen wertvoll sind. Ähnliche Datensätze werden von KI-Unternehmen wie Scale AI für Millionenbeträge erstellt.

Anzeige

Opt-out statt Opt-in

Zwar verbieten die Nutzungsbedingungen von Triplegangers das automatisierte Crawling ohne Erlaubnis. Doch OpenAI und andere KI-Unternehmen setzen auf ein Opt-out-Modell: Websites müssen aktiv durch korrekt konfigurierte robots.txt-Dateien signalisieren, dass sie nicht gecrawlt werden möchten.

„Es ist erschreckend, dass diese Firmen eine Lücke ausnutzen, indem sie sagen ‚Sie können sich per robots.txt abmelden‘ – dabei liegt die Last beim Website-Betreiber, der verstehen muss, wie man sie blockiert“, kritisiert Tomchuk. Mittlerweile hat das Unternehmen entsprechende Schutzmaßnahmen implementiert und nutzt Cloudflare zum Blocking verschiedener KI-Bots.

Unklar bleibt, welche Daten OpenAI bereits erfolgreich abgreifen konnte. Eine Kontaktaufnahme mit dem KI-Unternehmen blieb erfolglos, das versprochene Opt-out-Tool lässt weiter auf sich warten. Für Triplegangers ist dies besonders problematisch, da die Bildrechte der gescannten Models betroffen sind.

Der Fall zeigt exemplarisch die aggressive Datenbeschaffungspraxis großer KI-Unternehmen. „Die meisten Websites haben keine Ahnung, dass sie von diesen Bots gescannt wurden“, warnt Tomchuk. „Wir müssen jetzt täglich die Logs überwachen.“

Lars

Becker

Redakteur

IT Verlag GmbH

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.