Das chinesische KI-Startup DeepSeek sorgt weiterhin für Aufsehen in der globalen KI-Landschaft mit seiner neuesten Innovation im Bereich der Modelloptimierung. Am 29. Mai gab das Unternehmen bekannt, dass eine Variante seines kürzlich aktualisierten R1-0528-Reasoning-Modells zur Verbesserung von Alibabas Qwen 3 8B Base-Modell durch einen Prozess namens Distillation eingesetzt wurde.
Die Distillationstechnik, bei der Wissen von einem fortschrittlicheren Modell auf ein kleineres übertragen wird, ermöglichte es DeepSeek, die Reasoning-Prozesse seines R1-0528-Modells auf Alibabas System zu übertragen. Laut DeepSeeks Mitteilung führte dieser Prozess zu Leistungssteigerungen von über 10 % für das Qwen 3-Modell.
„Wir sind der Überzeugung, dass die Chain-of-Thought von DeepSeek-R1-0528 sowohl für die akademische Forschung als auch für praktische Anwendungen von großer Bedeutung sein wird“, erklärte DeepSeek in seiner Ankündigung. Das Unternehmen hat zuvor bereits mehrere distillierte Modelle auf Basis der Qwen- und Metas Llama-Architekturen veröffentlicht, mit Modellgrößen von 1,5B bis 70B Parametern.
DeepSeeks Ansatz zur KI-Entwicklung hat seit Januar große Aufmerksamkeit erregt, als das R1-Modell eine mit OpenAI und Google vergleichbare Leistung bei einem Bruchteil der Rechenkosten zeigte. Der Erfolg des Unternehmens stellt die bisherige Annahme infrage, dass Spitzentechnologie im KI-Bereich zwangsläufig enorme Rechenressourcen und Investitionen erfordert.
Trotz US-Exportbeschränkungen für fortschrittliche KI-Chips hat DeepSeek seine Modelle so optimiert, dass sie effizient auf leistungsschwächeren, exportgenehmigten Hardware-Systemen laufen. Diese Strategie hat Wettbewerber dazu gezwungen, ihre Hardware-Abhängigkeiten zu überdenken und beeinflusst die Marktdynamik im KI-Sektor.
Das aktuelle R1-0528-Update bringt DeepSeeks Modell näher an die Leistung von OpenAIs o3-Reasoning-Modellen und Googles Gemini 2.5 Pro heran, mit deutlichen Verbesserungen in der Reasoning-Tiefe, den Inferenzfähigkeiten und der Reduzierung von Halluzinationen. Die kontinuierliche Innovation und der Open-Source-Ansatz des Unternehmens verändern die Erwartungen an die Entwicklung und Effizienz von KI-Modellen grundlegend.