Penetrantes Crawling

OpenAI-Bot legt Firmen-Seite lahm – „Wie ein DDoS-Angriff“

13. Januar, 2025
13:56

Facebook X LinkedIn Reddit WhatsApp Pocket

Der aggressive Crawling-Versuch des GPTBot brachte die Website eines kleinen 3D-Modell-Anbieters zum Absturz. Der Vorfall wirft Fragen zum Umgang von KI-Unternehmen mit fremden Daten auf.

Ein massiver Crawling-Versuch durch OpenAIs GPTBot hat am vergangenen Samstag die Website des 3D-Asset-Anbieters Triplegangers komplett lahmgelegt. Wie CEO Oleksandr Tomchuk bei TechCrunch berichtet, versuchte der Bot, über 65.000 Produktseiten mit jeweils mindestens drei hochauflösenden Fotos herunterzuladen. „Die Crawler haben unsere Seite regelrecht zermalmt“, so Tomchuk. „Es war praktisch ein DDoS-Angriff.“

Das in der Ukraine ansässige Unternehmen mit US-Lizenz in Tampa, Florida, betreibt nach eigenen Angaben die größte Datenbank für „digitale menschliche Doubles“ – 3D-Modelle, die von realen Menschen gescannt wurden. Diese werden an 3D-Künstler, Spieleentwickler und andere Kunden verkauft, die authentische menschliche Charakteristiken digital nachbilden möchten.

Massive Serveranfragen von Hunderten IPs

Der Bot nutzte laut Analysen des Unternehmens mindestens 600 verschiedene IP-Adressen für seine Crawling-Versuche. „Wir werten immer noch die Logs der letzten Woche aus – möglicherweise waren es noch deutlich mehr“, erläutert Tomchuk. Neben dem Serverausfall während der US-Geschäftszeiten drohen dem Sieben-Personen-Unternehmen nun auch erhöhte AWS-Kosten durch die extreme CPU-Auslastung.

Besonders brisant: Die Website enthält detailliert getaggte Fotos mit Informationen zu Ethnizität, Alter, Körpermerkmalen und anderen Attributen – genau die Art von kategorisierten Bilddaten, die für das Training von KI-Modellen wertvoll sind. Ähnliche Datensätze werden von KI-Unternehmen wie Scale AI für Millionenbeträge erstellt.

Opt-out statt Opt-in

Zwar verbieten die Nutzungsbedingungen von Triplegangers das automatisierte Crawling ohne Erlaubnis. Doch OpenAI und andere KI-Unternehmen setzen auf ein Opt-out-Modell: Websites müssen aktiv durch korrekt konfigurierte robots.txt-Dateien signalisieren, dass sie nicht gecrawlt werden möchten.

„Es ist erschreckend, dass diese Firmen eine Lücke ausnutzen, indem sie sagen ‚Sie können sich per robots.txt abmelden‘ – dabei liegt die Last beim Website-Betreiber, der verstehen muss, wie man sie blockiert“, kritisiert Tomchuk. Mittlerweile hat das Unternehmen entsprechende Schutzmaßnahmen implementiert und nutzt Cloudflare zum Blocking verschiedener KI-Bots.

Unklar bleibt, welche Daten OpenAI bereits erfolgreich abgreifen konnte. Eine Kontaktaufnahme mit dem KI-Unternehmen blieb erfolglos, das versprochene Opt-out-Tool lässt weiter auf sich warten. Für Triplegangers ist dies besonders problematisch, da die Bildrechte der gescannten Models betroffen sind.

Der Fall zeigt exemplarisch die aggressive Datenbeschaffungspraxis großer KI-Unternehmen. „Die meisten Websites haben keine Ahnung, dass sie von diesen Bots gescannt wurden“, warnt Tomchuk. „Wir müssen jetzt täglich die Logs überwachen.“

OpenAI

OpenAI-Bot legt Firmen-Seite lahm – „Wie ein DDoS-Angriff“

Massive Serveranfragen von Hunderten IPs

Opt-out statt Opt-in

Lars

Becker

Weitere Artikel

Events

Jobs

Meistgelesene Artikel

6 Millionen Datensätze: Oracle wurde angeblich gehackt

Hackergruppe Dark Storm war für X-Ausfälle verantwortlich

X (ehemals Twitter) down: Tausende Nutzer weltweit betroffen

Lenovo stellt Drei-Displays-Laptop vor

IT Verlag

Wichtige Links

Kontakt