Das erst 2023 gegründete chinesische KI-Unternehmen DeepSeek hat mit seiner kostengünstigen und effizienten KI-Technologie für Aufsehen in der Technologiebranche gesorgt.
Die Open-Source-Modelle des Unternehmens erreichen nach eigenen Angaben eine Leistung, die mit führenden Systemen wie ChatGPT vergleichbar ist – und das bei deutlich geringerem Ressourceneinsatz. Der renommierte Risikokapitalgeber Marc Andreessen bezeichnete DeepSeek als „einen der erstaunlichsten und beeindruckendsten Durchbrüche, die ich je gesehen habe“ und sprach von einem „Sputnik-Moment der KI“.
Diese Einschätzung scheint sich in den Nutzerzahlen widerzuspiegeln: Die mobile App des Unternehmens schoss nach ihrer Veröffentlichung Anfang Januar direkt an die Spitze der iPhone-Download-Charts in mehreren Ländern, darunter die USA, Großbritannien und China. Bis zum 25. Januar verzeichnete die Anwendung bereits 1,6 Millionen Downloads. Es funktioniert genauso wie ChatGPT und andere Alternativen. Auch designtechnisch erinnert es klar an den KI-Pionieer. Die Chat-Historie ist auf der linken Seite platziert und das Eingabefeld in der Mitte des Bildschirms.
Effizienz statt Gigantismus
DeepSeeks Ansatz könnte die vorherrschende Meinung in Frage stellen, dass Fortschritte in der KI-Entwicklung zwangsläufig mit einem immer höheren Energie- und Ressourcenverbrauch einhergehen müssen. Das R1-Modell des Unternehmens schneidet in wichtigen Benchmarks wie AIME 2024 für mathematische Aufgaben und MMLU für Allgemeinwissen ähnlich gut oder sogar besser ab als die Konkurrenzprodukte – und das offenbar mit deutlich geringerem Trainingsaufwand.
Bemerkenswert sind vor allem die technischen Spezifikationen des Modells: Mit insgesamt 671 Milliarden Parametern gehört es zu den größten Sprachmodellen weltweit. Das Besondere dabei ist die verwendete Mixture-of-Experts (MoE) Architektur, die pro Token nur etwa 37 Milliarden Parameter aktiviert. Diese selektive Aktivierung ermögliche eine deutlich effizientere Ressourcennutzung, ohne dabei Einbußen bei der Genauigkeit oder Schlussfolgerungsfähigkeit in Kauf nehmen zu müssen. Das Training des Modells erfolgte mit 14,8 Billionen Tokens und benötigte 2,664 Millionen GPU-Stunden auf H800-Grafikprozessoren. Mit einer Kontextlänge von bis zu 128.000 Tokens übertrifft es zudem viele etablierte Modelle.
Herausforderung für US-Exportkontrollen
Der Erfolg von DeepSeek wirft auch Fragen zur Wirksamkeit der US-Exportbeschränkungen für High-End-Halbleiter nach China auf. Das Unternehmen scheint einen Weg gefunden zu haben, trotz limitierter Ressourcen effiziente KI-Modelle zu entwickeln. Firmengründer Liang Wenfeng betont dabei, dass nicht die Höhe der Investitionen, sondern innovative Ansätze entscheidend seien.
Allerdings hat das System auch seine Grenzen: Wie alle chinesischen KI-Modelle unterliegt auch DeepSeek der Selbstzensur bei politisch sensiblen Themen. Zudem muss sich die Cloud-Infrastruktur des Unternehmens erst noch bei der stark wachsenden Nutzerzahl bewähren.