Das chinesische KI-Unternehmen DeepSeek hat mit der Veröffentlichung seines Open-Source-Modells R1 die Tech-Welt aufgeschreckt. „Die Auswirkungen auf die Branche sind noch unklar, aber US-KI-Labore könnten von DeepSeeks Effizienz profitieren“, kommentiert Dominic Rizzo, Portfoliomanager bei T. Rowe Price.
Das chinesische Unternehmen für künstliche Intelligenz (KI), DeepSeek, hat bekannt gegeben, dass es ein Open-Source-Modell für große Sprachen entwickelt hat, das relativ kostengünstig zu trainieren ist und weniger Energie und Rechenleistung benötigt als die führenden Anwendungen. Das Ergebnis war ein deutlicher Ausverkauf bei US-Technologieaktien – insbesondere bei Halbleiterunternehmen, die sich auf Chips für KI-Anwendungen spezialisiert haben.
Hintergründe zum Unternehmen
DeepSeek ist ein kompetentes – wenn auch relativ kleines – chinesisches KI-Labor. Dieses Team hat zahlreiche Forschungsarbeiten verfasst, verfügt über umfangreiche Erfahrung mit GPUs (Graphic Processing Units) und wurde quasi aus einem chinesischen quantitativen Hedgefonds ausgegründet. Das Unternehmen hat große Aufmerksamkeit erregt, indem sie ein fortschrittliches Large Language Model (LLM) auf den Markt gebracht haben, das angeblich zu wesentlich geringeren Kosten als ähnliche bestehende Modelle trainiert wurde.
Am 25. Dezember 2024 hat DeepSeek sein V3-Modell als Open-Source-Software veröffentlicht. In ihrem Papier gaben sie an, dass die endgültigen Kosten für den Trainingslauf für das Modell nur 5,6 Millionen US-Dollar betrugen, erklärten jedoch, dass V3 immer noch eine Leistung aufweist, die mit der des führenden LLM, GPT-4, vergleichbar ist.
Das V3-Modell ähnelt bestehenden Modellen und bietet die Möglichkeit, auf Benutzeranfragen mit sofortigen Antworten zu reagieren. Die ausgewiesenen Schulungskosten in Höhe von 5,6 Mio. USD sind möglicherweise nicht realistisch, da sie mehrere tatsächliche, sehr reale Ausgaben, wie z. B. Experimente, ausschließen. Nichtsdestotrotz scheint das V3-Modell im Vergleich zu seinen US-Pendants hocheffizient und deutlich kostengünstiger zu trainieren zu sein.
Am 20. Januar 2025 veröffentlichte DeepSeek R1, das ebenfalls vollständig Open Source ist. Dies ist das Stück, das die Welt schockiert hat. Der Hauptunterschied zwischen R1 und V3 besteht darin, dass R1 ein „Chain-of-Thought“-Modell ist – mit anderen Worten, es argumentiert und nimmt sich die Zeit, über die Antworten nachzudenken.
Die Leistung von R1 ist vergleichbar mit dem leistungsstärksten o1-Modell, das von OpenAI entwickelt wurde. R1 ist sicherlich günstiger zu trainieren als o1, obwohl der genaue Unterschied ungewiss ist. DeepSeek bepreist auch die Nutzung oder Inferenz mit einem Zehntel der Kosten von o1.
Welche bedeutenden Innovationen hat Deep Seek hervorgebracht? Ein Großteil ihres Kostenvorteils ergibt sich aus erheblichen technischen Fortschritten, die den Speicher- und Rechenbedarf reduzieren und auch die GPU-Auslastung verbessern. Not macht Innovation. Noch wichtiger ist wohl, dass DeepSeek Reinforcement Learning einsetzte, um R1 zu trainieren, so dass das Modell ohne menschliches Eingreifen autonom lernen und sich weiterentwickeln konnte.
Einordnung
Während es auf den ersten Blick den Anschein haben mag, dass R1 aufgrund der Ausgabenoptimierung negativ für die KI-Infrastruktur sein könnte, sind die Auswirkungen des Modells von DeepSeek auf mittlere Sicht noch nicht klar.
US-KI-Labore könnten theoretisch viele der von DeepSeek entwickelten Recheneffizienzen integrieren, um die Leistung zu verbessern und gleichzeitig das aktuelle Ausgabenniveau beizubehalten und drastische Leistungsverbesserungen zu erzielen.
Die Kosten von DeepSeek V3 in Höhe von 5,6 Millionen US-Dollar schließen verschiedene andere Ausgaben aus, und es besteht Unsicherheit darüber, ob chinesische Labore mehr GPUs haben als angegeben. In einem Auftritt auf CNBC erwähnte der CEO eines US-amerikanischen KI-Unternehmens, dass DeepSeek rund 50.000 H100-GPUs habe. Allein dies entspricht geschätzten Ausgaben in Höhe von 1,5 Milliarden US-Dollar. Darüber hinaus würden diese GPUs eine „Sourcing-Prämie“ beinhalten.
Sind LLMs heute eine Ware, die den Bedarf an groß angelegten Schulungen einschränkt?
Dies ist noch unklar, aber es gibt eine positive Perspektive für die Fortsetzung der groß angelegten Ausbildung. DeepSeek hat gezeigt, dass Reinforcement Learning effektiv ist, und es ist davon auszugehen, dass es sich mit erhöhter Rechenleistung und mehr Daten verbessern könnte. Dies deutet darauf hin, dass KI-Labore ironischerweise von einer Erhöhung ihrer Ausgaben profitieren könnten.
Wir glauben, dass das Hauptziel für KI-Labore darin bestehen sollte, sich auf die Leistung und nicht auf die Kostendifferenzierung zu konzentrieren. Eine Pause der Ausgaben ist für die Branchenführer, die an der Spitze der Entwicklung von AGI (künstlich generierte Intelligenz) bleiben wollen, möglicherweise nicht machbar.
Dies könnte sich positiv auf die zunehmende Einführung von KI-Modellen auswirken.
Wir gehen davon aus, dass es eine Vielzahl von Modellen geben wird – einige große und einige kleine. Für optimale Verbraucheranwendungen können große Modelle erforderlich sein, die teurer sein können. Die Verfügbarkeit kostengünstiger Modelle ist jedoch für eine breite KI-Einführung von Vorteil. Kleinere Modelle sollten von Fortschritten in Software und Hardware sowie von Erkenntnissen aus größeren Modellen profitieren.
Erschwinglichere Modelle wie das von DeepSeek könnten entscheidend sein, um die reale Nachfrage nach KI-Anwendungen zu steigern. Dies deutet darauf hin, dass mittelfristig die Nachfrage nach Training und Inferenz tatsächlich steigen könnte, da wir sehen, dass KI überall eingesetzt wird.
Wie bei allen neuen Dynamiken wollen wir flexibel bleiben und behalten uns das Recht vor, unsere Meinung zu ändern. Unabhängig davon werden wir unseren Anlagerahmen befolgen, um Investitionsentscheidungen zu treffen, was bedeutet, dass wir nach Dreh- und Angelchpin Technologies, Innovation in säkularen Wachstumsmärkten, Verbesserung der Fundamentaldaten und angemessene Bewertungen schauen.