DeepSeek V4open-source AIHugging FaceDeepSeek V4 open-source MoE modelDeepSeek V4 vs Claude Opus

DeepSeek V4 erscheint als Open-Source auf Hugging Face

25 Apr 20266 Min. LesezeitJames O'Brien

// IN DIESEM ARTIKEL

01Was passiert ist 02Technische Anatomie 03Wer unter Druck gerät 04Leitfaden für die KI-Entwicklung 05Wichtige Erkenntnisse 06Häufig gestellte Fragen

Stellen Sie sich einen Güterumschlagplatz um Mitternacht vor. Die meisten Waggons stehen im Dunkeln – nur die, die die heutige Fracht transportieren, leuchten auf, und die Gleise wurden so neu verlegt, dass Züge ganze Bahnhöfe überspringen können. Das ist das mentale Modell für das, was DeepSeek heute veröffentlicht hat. Und wie bei jedem guten Schienennetz liegt das Interessante nicht in der Lokomotive, sondern in den Gleisen.

Das chinesische Labor hat zwei Open-Source-Modelle live auf Hugging Face gestellt, die zur Familie V4 gehören, und das Flaggschiff still und leise gegen Claude Opus 4.6 verglichen. Keine Pressetour, keine Keynote. Nur Gewichte.

Was passiert ist

Am 24. April 2026 veröffentlichte DeepSeek die V4-Serie quelloffener großer Sprachmodelle, wie SiliconANGLE berichtete. Gleich zwei Modelle: V4-Pro als Flaggschiff und V4-Flash als kleineres Geschwistermodell, das etwas Ausgabequalität gegen günstigere Hardwarekosten eintauscht.

Beide basieren auf einem Mixture-of-Experts-Aufbau. V4-Pro verfügt über 1,6 Billionen Parameter, aktiviert aber für eine gegebene Anfrage nur einen Anteil von 49 Milliarden. V4-Flash liegt bei 284 Milliarden Parametern mit 13 Milliarden aktiven. Das Güterumschlag-Bild bleibt also treffend: riesiger Bahnhof, kleiner aktiver Zug.

Das architektonische Herzstück ist das, was DeepSeek als hybriden Aufmerksamkeitsmechanismus bezeichnet. Er verwendet zwei verschiedene Kompressionsmethoden auf dem KV-Cache, was zu einer 90-prozentigen Reduzierung des KV-Speichers während der Inferenz im Vergleich zur vorherigen DeepSeek-Generation führt. Wer schon einmal einen Long-Context-Inferenzjob um 3 Uhr morgens gegen die Speichergrenze laufen gesehen hat, weiß, was diese Zahl in der Praxis bedeutet.

Zwei weitere Aspekte verdienen Erwähnung. mHC ermöglicht es Daten, direkt zwischen weit entfernten Schichten im Netzwerk zu springen, die dazwischen liegenden Cluster zu überspringen und den Trainingsfehler zu reduzieren. Und ein Softwaremodul namens Muon optimiert die verborgenen Schichten, um das Training zu beschleunigen und die Infrastrukturkosten zu senken.

Das Vortraining lief auf rund 27 Billionen Token. Das Nachtraining verlief in zwei Schritten: zunächst wurde jedes Expertennetzwerk isoliert optimiert, dann wurden sie darauf trainiert, zu koordinieren. DeepSeek schickte V4-Pro durch etwa zwei Dutzend Benchmarks gegen führende Mitbewerber, darunter Claude Opus 4.6. V4-Pro führte das Feld bei drei Benchmarks klar an und lag bei anderen Benchmarks über einigen Mitbewerbern. Kein klarer Sweep. Eine glaubwürdige Vorstellung. Beide Modelle sind derzeit als Vorschau auf Hugging Face verfügbar.

Technische Anatomie

Das scheinbar Unspektakuläre – und zugleich Interessanteste – ist die Arbeit am KV-Cache. Aufmerksamkeitsmechanismen operieren nicht auf rohem Prompt-Text, sondern auf einer mathematischen Darstellung namens KV-Cache, und dieser Cache wächst mit der Kontextlänge. Er ist der stille Kostentreiber der Inferenz. Man glaubt, für Parameter zu zahlen, zahlt aber tatsächlich für KV-Speicher bei langen Kontexten.

Dass DeepSeek zwei Kompressionsmethoden kombiniert (anstatt eine auszuwählen), deutet darauf hin, dass verschiedene Teile der Kostenkurve angegangen werden. Eine Methode zielt wahrscheinlich auf Redundanz über Token hinweg, die andere über Heads oder Schichten. Die 90-Prozent-Reduktion, wenn sie unabhängigen Tests standhält, verändert die Kalkulation für jedes Team, das Long-Context-Inferenz auf handelsüblichen GPUs betreibt.

Dann ist da noch mHC. Das Signal reist direkt zwischen nicht benachbarten Schichten, an der dazwischenliegenden Maschinerie vorbei. Im Sinne von Gradienten ist das ein Verwandter von Skip-Connections, aber auf den Datenfluss während des Trainings angewendet statt nur auf Residualpfade. Es adressiert genau die Stelle, an der bei tiefem MoE-Training alles zusammenbricht: die Fehlerakkumulation durch Schichtketten, bis die Verlustfläche außer Kontrolle gerät.

Muon, der Optimierer für verborgene Schichten, ist das unscheinbare Stück, das die Budgetnadel tatsächlich bewegt. Trainingsrechnen ist der größte Posten in jedem Frontier-Programm. Alles, was die Wanduhrzeit bei einem 27-Billionen-Token-Lauf verkürzt, zahlt sich in Megawatt zurück.

Das zweistufige Nachtraining zeigt das MoE-Know-how. Experten zuerst unabhängig zu optimieren und sie dann zur Zusammenarbeit zu bringen, ist genau die Art von Lehrplanansatz, der ein Forschungslabor mit MoE-Erfahrung von einem unterscheidet, das nur die Paper liest. Koordinationsverlust ist die Steuer, die MoE-Architekturen für Sparsität zahlen. DeepSeek behandelt ihn als primäres Trainingsziel, nicht als emergente Eigenschaft.

Wer unter Druck gerät

Anthropic und OpenAI verlieren durch V4 keinen direkten Schlaf. Die Marktführer bei geschlossenen Modellen konkurrieren über integrierte Produkte, Fine-Tuning-Ökosysteme und Unternehmensverträge, die kein Open-Weight-Drop über Nacht erschüttert. Aber der Preisboden bewegt sich. Jedes Mal, wenn ein glaubwürdiges Open-Weight-Modell in Reichweite der Frontier-Benchmarks landet, wird die Per-Token-Ökonomie für geschlossene APIs im Long-Tail der Anwendungsfälle schwerer zu rechtfertigen.

Die Teams, die es zuerst spüren, sind GPU-Vermiet-Inferenzanbieter und zweitrangige Anbieter geschlossener Modelle. Wenn V4-Flash Inferenz mit 13 Milliarden aktiven Parametern wirklich günstig betreibt, haben ein Fintech-Team, das eine Transaktionsbeschreibungsfunktion baut, oder ein iGaming-Betreiber, der Content-Moderation im großen Maßstab betreibt, ein kostenloses Modell zur Selbst-Hostung, das mit bezahlten APIs konkurriert, die sie noch im letzten Quartal berechnet haben.

Compliance-Teams in regulierten Branchen bekommen ein neues Problem. Ein chinesisches Open-Weight-Modell ist gleichzeitig eine Beschaffungsfrage, eine Datenschutzfrage und eine Frage der Modell-Herkunft. Ich würde argumentieren, dass die meisten EU-Fintechs und britisch lizenzierte Betreiber V4 ohne eine ernsthafte rechtliche Prüfung nicht in Produktion bringen werden – unabhängig davon, wie gut die Benchmarks aussehen. Diese Prüfung dauert in jedem bankzertifizierten Unternehmen mindestens 90 Tage.

Die Gewinner sind die Inferenzinfrastruktur-Branche. vLLM, SGLang, die TGI-Maintainer – wer einen Stack hat, der eine neue MoE-Topologie und ein neuartiges KV-Cache-Kompressionsschema aufnehmen kann, wird eine Welle an Integrationsarbeit sehen. Gleiches gilt für die Quantisierungsgemeinschaft: Ein 1,6-Billionen-Parameter-MoE mit winzigem aktivem Footprint ist genau die Art von Modell, das innerhalb von Wochen aggressiv quantisiert wird. Erwarten Sie 4-Bit- und 2-Bit-Community-Varianten auf Hugging Face, bevor der Mai vorbei ist.

Leitfaden für die KI-Entwicklung

Wenn Sie CTO oder Plattformverantwortlicher sind, zählt diese Woche.

Erstens: Laden Sie V4-Flash auf einen Staging-Cluster und vergleichen Sie es mit der geschlossenen API, für die Sie aktuell bei Ihren drei volumenstärksten Workloads zahlen. Nicht Ihre schwierigsten Workloads, sondern Ihre volumenstärksten. Dort liegt das Kostendelta. Das Flaggschiff V4-Pro ist interessant, aber V4-Flash mit 13 Milliarden aktiven Parametern ist das Modell, das Ihre Rechnung verändert.

Zweitens: Behandeln Sie den KV-Cache-Anspruch als Hypothese, nicht als Tatsache. Führen Sie eigene Long-Context-Tests durch. Wenn die 90-Prozent-Speicherreduzierung für Ihre Prompt-Verteilung gilt, können Sie Ihre Inferenz-Instanzgröße überdenken. Wenn sie nur für kurze Prompts gilt, ist das trotzdem nützlich – nur weniger bedeutsam.

Drittens: Kommen Sie dem Beschaffungsgespräch zuvor. Wenn Sie im iGaming, im Zahlungsverkehr oder in einer Branche mit einem Regulator tätig sind, der die Nachrichten verfolgt, wird Ihr Compliance-Verantwortlicher innerhalb des Monats nach chinesischen Open-Weight-Modellen fragen. Halten Sie eine schriftliche Position bereit: Wo kamen die Gewichte her, welche Daten das Modell berührten, unter welcher Isolation Sie es betreiben würden.

Viertens: Behalten Sie den agentischen Aspekt im Blick. Tool-Nutzung und Leistung bei strukturierten Ausgaben werden in den Launch-Benchmarks nicht hervorgehoben. Bevor Sie V4 in eine Art Agenten-Loop einbinden, testen Sie es gegenüber Ihrer Claude-Baseline anhand echter Tool-Call-Traces. Frontier-Benchmark-Erfolge lassen sich nicht immer in sauberes Function-Calling-Verhalten übersetzen.

Wichtige Erkenntnisse

DeepSeek hat V4-Pro (1,6T Parameter, 49B aktiv) und V4-Flash (284B Parameter, 13B aktiv) als quelloffene MoE-Modelle auf Hugging Face veröffentlicht.
Hybride Aufmerksamkeit mit dualer KV-Kompression liefert eine 90-prozentige Speicherreduzierung während der Inferenz im Vergleich zur vorherigen DeepSeek-Generation.
V4-Pro schlug Claude Opus 4.6 und andere führende Modelle bei drei von rund zwei Dutzend Benchmarks – eine glaubwürdige, aber keine dominante Leistung.
Der mHC-Schicht-Übersprungs-Mechanismus und der Muon-Optimierer für verborgene Schichten reduzierten Trainingsfehler und Infrastrukturkosten bei einem Vortraining mit 27 Billionen Token.
Die Beschaffungs- und Compliance-Prüfung für chinesische Open-Weight-Modelle wird die Einführung in regulierten Branchen stärker bremsen als die Benchmark-Ergebnisse.

Zurück zum Güterumschlagplatz. Die Lokomotive zieht die Blicke auf sich, aber die Eisenbahnunternehmen, die langfristig gewinnen, sind jene, die still und leise die Gleise verlegen. DeepSeek hat heute nicht das lauteste Modell veröffentlicht. Sie haben ein Modell veröffentlicht, bei dem die darunterliegenden Gleise sichtbar besser sind als die der Mitbewerber. Das ist der Teil, den es zu beobachten gilt.

Häufig gestellte Fragen

F: Was ist DeepSeek V4 und wie unterscheidet es sich von früheren Modellen?

V4 ist DeepSeeks neue Open-Source-LLM-Familie mit zwei Modellen: V4-Pro mit 1,6 Billionen Parametern und V4-Flash mit 284 Milliarden. Die wichtigste Neuerung ist ein hybrider Aufmerksamkeitsmechanismus, der den KV-Cache-Speicherbedarf während der Inferenz im Vergleich zur Vorgängergeneration um 90 % reduziert – ergänzt durch neue Trainingsoptimierungen wie mHC und Muon.

F: Wie schneidet V4-Pro im Vergleich zu Claude Opus 4.6 ab?

DeepSeek hat V4-Pro gegen mehrere führende Modelle, darunter Claude Opus 4.6, in etwa zwei Dutzend Tests verglichen. V4-Pro schlug alle Mitbewerber bei drei Benchmarks und übertraf bei weiteren Benchmarks einige, aber nicht alle Mitbewerber. Es ist eine wettbewerbsfähige Vorstellung, kein klares Dominieren.

F: Können Unternehmen V4 tatsächlich in Produktion einsetzen?

Die Gewichte sind als Vorschau auf Hugging Face verfügbar, also technisch gesehen ja. Praktisch werden regulierte Branchen wie Fintech und iGaming Beschaffungs- und Compliance-Prüfungen zur Herkunft chinesischer Open-Weight-Modelle, zur Datenverarbeitung und zur Isolation durchführen müssen, bevor eine produktive Nutzung möglich ist. Planen Sie mindestens einen 90-tägigen Prüfungszyklus ein.

James O'Brien

RiverCore Analyst · Dublin, Ireland

// RELATED ARTICLES

GPT-5.5 erscheint: OpenAI übernimmt wieder die Führung bei Frontier-Modellen

OpenAIs GPT-5.5 erscheint mit 20 % Token-Speedup, 82,7 % Terminal-Bench-Score und noch ohne API. Was Plattform-Teams dieses Quartal planen sollten.

Itron-Datenpanne zwingt Versorger-CTOs zur Überprüfung des Anbieterrisikos

Itron meldete einen internen IT-Einbruch bei einem Anbieter, der 112 Millionen Versorgungsendpunkte verwaltet. Die Architektur- und Beschaffungsimplikationen gehen weit über das 8-K-Dokument hinaus.

Die 1-Sekunden-Steuer: Warum mobile Geschwindigkeit eine Architekturentscheidung ist

Eine Sekunde Verzögerung auf Mobilgeräten kostet bis zu 20% Conversion. Für Plattformverantwortliche ist das kein Frontend-Bug, sondern eine Make-or-Buy-Entscheidung auf dem Tisch des CFO.