Es gab Gerüchte, dass Mythos heute veröffentlicht werden würde, und das hat sich bewahrheitet. Anthropic nennt es Fable 5 und sagt, es handele sich um ein „Mythos-Level“-Modell.
Es wurde sofort eingeführt und besagt, dass es die doppelte Nutzung von Opus erfordert, sodass diese Ratenbegrenzungen schnell eintreten werden.
Fable 5 ist eindeutig als neues Topmodell für den allgemeinen Gebrauch positioniert. Es führt die meisten gezeigten Benchmarks an, insbesondere Agentencodierung, Wissensarbeit, räumliches Denken, Werkzeugnutzung, Recht, Biologie, Cybersicherheit und Gesundheit.
Hier sind die angepriesenen Benchmarks:
Berichten zufolge haben Claude Fable 5 und Claude Mythos 5 das gleiche zugrunde liegende Modell, aber Fable verfügt über stärkere Sicherheitsvorkehrungen, was dies unterstreicht.
Hier sind die fünf Killeranwendungen, basierend auf diesen Benchmarks:
- Agentische Codierung: Die Best-in-Table-Codierungswerte deuten darauf hin, dass es längere Softwareaufgaben ausführen, komplexe Codebasen debuggen und sich eher wie ein autonomer Ingenieur verhalten kann.
-
Wissensarbeit: Eine starke GDPval-AA-Leistung weist auf bessere Recherche, Dokumentensynthese, Finanzanalyse, Briefing-Notizen und komplexe professionelle Argumentation hin.
-
Computernutzung: Nahezu führende OSWorld-Ergebnisse deuten darauf hin, dass das Gerät Apps bedienen, Arbeitsabläufe steuern, Formulare ausfüllen, Software testen und Desktop-Aufgaben automatisieren kann.
-
Räumliches Denken: Ein großer Sprung auf der Blueprint-Bench deutet auf eine stärkere Fähigkeit hin, Diagramme, Pläne, Layouts, technische Zeichnungen und visuell-räumliche Probleme zu interpretieren.
-
Regulierte Berufsbereiche: Gute Bewertungen in den Bereichen Recht, Gesundheit, Biologie und Cybersicherheit deuten auf nützliche Experten-Assistenten-Anwendungen hin, wenn auch wahrscheinlich mit stärkeren Sicherheitseinschränkungen.
Die ersten Vorschauen auf Mythos waren großartig, daher ist diese Veröffentlichung eine große Sache. Ich zuerst schrieb über Mythos, kurz nachdem es am 30. März durchgesickert war, und – insbesondere – zu dieser Zeit erreichten Technologieaktien ihren Tiefpunkt. Seitdem gibt es nahezu konstant Gerüchte über die Macht von Mythos – insbesondere im Bereich der Cybersicherheit.
Damals schrieb ich:
Schließlich hat es nicht an Hype um einen „Schrittwechsel“ bei den Modellen gemangelt, und wir haben ihn schon so oft gesehen. Aber wenn es wahr ist und wir eine neue Generation wirklich überlegener Modelle bekommen, dann verschiebt das die Grenzen dessen, was KI leisten kann, wie disruptiv sie für die Wirtschaft ist und letztendlich auch, wie nützlich sie sein wird.
Jetzt kommt der eigentliche Test. Ich werde mich damit befassen und sehen, was ich daraus lernen kann, zumindest was die finanzielle Seite betrifft.
Als nächstes soll OpenAI im März ebenfalls einen Trainingslauf für sein neuestes Modell mit dem Codenamen Spud abschließen. Es könnte die nächste große Iteration darüber hinaus sein, oder es könnte eine Aufholjagd sein.

