Wichtige Erkenntnisse:
- Nvidia veröffentlichte Nemotron 3 Super, ein offenes MoE-Modell mit 120 B Parametern, das nur 12,7 B Parameter pro Vorwärtsdurchlauf aktiviert.
- Nemotron 3 Super bietet bis zu 7,5-mal mehr Durchsatz als Qwen3.5-122B-A10B bei Agent-Workloads mit 8K-Ein-/64K-Ausgängen.
- Das Modell ist unter der Nvidia Nemotron Open Model-Lizenz vollständig geöffnet, mit Kontrollpunkten und Trainingsdaten auf Hugging Face.
Nvidia bringt Nemotron 3 Super mit 7,5-facher Durchsatzsteigerung gegenüber Qwen3.5-122B auf den Markt
Der neuestes Nvidia-Modell aktiviert nur 12,7 Milliarden Parameter pro Vorwärtsdurchlauf mithilfe einer Mixture-of-Experts (MoE)-Architektur, was bedeutet, dass der Großteil seines Gewichts während der Inferenz ungenutzt bleibt. Diese Designwahl zielt direkt auf zwei Probleme ab, auf die Entwickler bei der mehrstufigen Bereitstellung stoßen KI-Agenten: die zusätzlichen Kosten für erweiterte Argumentationsketten und die zunehmende Token-Nutzung, die sich in Multi-Agent-Pipelines um das bis zu 15-fache vervielfachen kann.
Nemotron 3 Super ist nach dem Nemotron 3 Nano ab Dezember 2025 das zweite Modell in Nvidias Nemotron 3-Familie. Nvidia angekündigt die Veröffentlichung erfolgt um den 10. März 2026.
Das Modell verwendet ein hybrides Mamba-Transformer-Backbone über 88 Schichten. Mamba-2-Blöcke bewältigen lange Sequenzen mit linearer Zeiteffizienz, während Transformer-Aufmerksamkeitsebenen eine präzise Erinnerung gewährleisten. Durch diese Kombination erhält das Modell native Unterstützung für Kontextfenster mit bis zu einer Million Token, ohne die für reine Aufmerksamkeitsdesigns typischen Speichereinbußen.
Nvidia Außerdem ist ein LatentMoE-Routing-System integriert, das Token-Einbettungen in einen Bereich mit niedrigem Rang komprimiert, bevor es sie an 512 Experten pro Schicht sendet und jeweils 22 aktiviert. Das Unternehmen gibt an, dass dies etwa viermal mehr Experten bei den gleichen Inferenzkosten im Vergleich zu Standard-MoE-Ansätzen ermöglicht und eine feinere Aufgabenspezialisierung ermöglicht, beispielsweise die Trennung der Python-Logik von der SQL-Verarbeitung auf Expertenebene.
Multi-Token-Vorhersageschichten, die zwei Köpfe mit gemeinsamer Gewichtung verwenden, beschleunigen die Generierung von Gedankenketten und ermöglichen eine native spekulative Dekodierung. Bei strukturierten Aufgaben meldet Nvidia eine bis zu dreimal schnellere Generierung.
Das Modell wurde in zwei Phasen mit 25 Billionen Token vorab trainiert. In der ersten Phase wurden 20 Billionen Token an umfassenden Daten verwendet. Beim zweiten wurden fünf Billionen hochwertige Token verwendet, die auf Benchmark-Leistung abgestimmt sind. Eine letzte Erweiterungsphase auf 51 Milliarden Token erweiterte den nativen Kontext auf eine Million Token. Die Nachschulung umfasste eine überwachte Feinabstimmung an etwa sieben Millionen Beispielen und verstärkendes Lernen in 21 Umgebungen mit mehr als 1,2 Millionen Rollouts.
In Benchmarks erzielte Nemotron 3 Super mit OpenHands 83,73 Punkte auf MMLU-Pro, 90,21 Punkte auf AIME25 und 60,47 Punkte auf SWE-Bench. Beim PinchBench erreichte es 85,6 Prozent, die höchste gemeldete Punktzahl unter den offenen Modellen seiner Klasse. Bei der Langzeitkontextbewertung erreichte es auf RULER 1M einen Wert von 91,64.
Im Vergleich zu GPT-OSS-120B liefert Nemotron 3 Super den 2,2-fachen Durchsatz bei 8K-Eingang und 64K-Ausgang. Gegenüber Qwen3.5-122B-A10B beträgt dieser Wert das 7,5-fache. Nvidia meldet außerdem einen mehr als fünfmal höheren Durchsatz und eine bis zu zweifache Genauigkeit im Vergleich zur vorherigen Nemotron Super-Generation.
Nvidia hat das Modell durchgängig in seinem für Blackwell-GPUs optimierten Vier-Bit-Gleitkommaformat NVFP4 trainiert. Laut Nvidia läuft die Inferenz auf B200-Hardware im Vergleich zu FP8 auf H100 bis zu viermal schneller, ohne dass ein Genauigkeitsverlust gemeldet wird. Quantisierte FP8- und NVFP4-Kontrollpunkte behalten 99,8 Prozent oder mehr der Vollpräzisionsgenauigkeit bei.
Das Modell treibt auch den Nvidia AI-Q-Forschungsagenten an, der die Spitzenposition auf der Deepresearch Bench-Rangliste erreicht hat.
Nemotron 3 Super ist unter der Nvidia Nemotron Open Model License vollständig offen. Auf Hugging Face sind Kontrollpunkte in den Formaten BF16, FP8 und NVFP4 sowie Daten vor dem Training, Beispiele nach dem Training und Lernumgebungen zur Verstärkung verfügbar. Inferenz wird unterstützt durch Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure und Coreweave, mit lokalen Optionen über Dell Enterprise Hub und HPE.
Entwickler können über die NeMo-Plattform mithilfe von vLLM, SGLang und TensorRT-LLM auf Trainingsrezepte, Anleitungen zur Feinabstimmung und Inferenzkochbücher zugreifen.

