Drei Modelle. Drei unterschiedliche Wetten. Kein einzelner Gewinner. Claude Opus 4.7 führt jeden Coding- und Agenten-Benchmark (64,3 % SWE-bench Pro, 77,3 % MCP-Atlas, 78,0 % OSWorld). GPT-5.4 dominiert Webrecherche mit 89,3 % auf BrowseComp, zehn Punkte vor Opus 4.7. Gemini 3.1 Pro kostet 60 % weniger als Opus 4.7: 2 $ Input gegenüber 5 $. Beim graduierten Reasoning (GPQA Diamond) sind sie auf 0,2 Punkte identisch. Wählen Sie das Modell, das zur Aufgabe passt. Nicht die Marke.
- Claude Opus 4.7 führt SWE-bench Pro mit 64,3 % gegenüber 57,7 % für GPT-5.4 und 54,2 % für Gemini 3.1 Pro (laut Vellums Opus-4.7-Benchmark-Aufschlüsselung).
- GPT-5.4 führt Webrecherche mit 89,3 % auf BrowseComp gegenüber 85,9 % für Gemini 3.1 Pro und 79,3 % für Opus 4.7.
- Alle drei sind statistisch gleichauf auf GPQA Diamond: Opus 4.7 bei 94,2 %, GPT-5.4 bei 94,4 %, Gemini 3.1 Pro bei 94,3 %.
- Gemini 3.1 Pro ist der günstigste: 2 $ Input / 12 $ Output pro 1M Tokens (unter 200k Kontext). GPT-5.4 bei 2,50 $/15 $. Opus 4.7 bei 5 $/25 $.
- Opus 4.7 führt MCP-Atlas (Tool-Orchestrierung) mit 77,3 % gegenüber 73,9 % für Gemini 3.1 Pro und 68,1 % für GPT-5.4.
- Opus 4.7 behält denselben Preis von 5 $/25 $ wie Opus 4.6, führt aber ein neues 'xhigh'-Aufwandslevel und Task Budgets in öffentlicher Beta ein.
- Das Kontextfenster von GPT-5.4 beträgt etwa 1,05M Tokens mit 128k maximaler Ausgabe; über 272k Tokens verdoppelt sich der Input-Preis.
- Opus 4.7 verdreifachte die Bildauflösung auf 2.576 Pixel an der langen Kante (~3,75MP), der erste Claude mit echter hochauflösender Bildwahrnehmung.
Drei Frontier-Labore, drei unterschiedliche Wetten. Anthropic setzte auf Coding und Agenten und berechnet dafür einen Aufschlag. Google setzte auf Preis und brachte Gemini 3.1 Pro 60 % unter Opus 4.7. OpenAI setzte auf Webrecherche und landete dort wirklich.
Ich zog die verifizierten Benchmark-Zahlen aus Anthropics offizieller Opus-4.7-Ankündigung, Vellums Opus-4.7-Benchmark-Aufschlüsselung, und den offiziellen Preisseiten jedes Anbieters. Nur exakte Zahlen, keine Marketing-Sprache. Für die vorherige Generation siehe unseren GPT-5.4 vs Opus 4.6 vs Gemini 3.1 Pro Vergleich.
Der Benchmark-Vergleich
Nur verifizierte Zahlen, alle aus primären oder glaubwürdigen Sekundärquellen.
Das Benchmark-Bild ist sauberer als seit langem. Jedes Modell gewinnt wirklich auf seinem gewählten Schlachtfeld. Keiner der drei tut so, als wäre er überall Erster.
Jede Zahl unten steht auch in unserem Live-Benchmark-Leaderboard, wo Sie auf jede Zelle klicken können, um die Primärquelle zu sehen.
Verifizierter Benchmark-Vergleich
| Benchmark | Opus 4.7 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|
| SWE-bench Verified | 87,6 % | nicht offengelegt | 80,6 % |
| SWE-bench Pro | 64,3 % | 57,7 % | 54,2 % |
| MCP-Atlas (Tool-Nutzung) | 77,3 % | 68,1 % | 73,9 % |
| OSWorld-Verified | 78,0 % | 75,0 % | nicht offengelegt |
| BrowseComp (Recherche) | 79,3 % | 89,3 % | 85,9 % |
| GPQA Diamond | 94,2 % | 94,4 % | 94,3 % |
| Finance Agent v1.1 | 64,4 % | 61,5 % | 59,7 % |
| MMMLU | 91,5 % | nicht offengelegt | 92,6 % |
Das Coding-Urteil ist jetzt eindeutig
Opus 4.7 gewinnt nicht nur SWE-bench Pro. Es gewinnt um 6,6 Punkte gegen GPT-5.4 und um 10,1 Punkte gegen Gemini 3.1 Pro. Das ist ein größerer Abstand, als Opus 4.6 je hatte. Wenn Sie Code ausliefern, ist der Opus-Aufpreis jetzt tatsächlich verdient.
Das Bild kippt komplett bei BrowseComp. Opus 4.7 erzielte 79,3 %, vier Punkte schlechter als Opus 4.6 (83,7 %). GPT-5.4 liegt bei 89,3 %. Wenn Ihr Workflow Webrecherche beinhaltet, ist Opus 4.7 jetzt das falsche Werkzeug. Das ist die ehrliche Lesart.
GPQA Diamond ist effektiv gesättigt. Opus 4.7 bei 94,2 %, GPT-5.4 bei 94,4 %, Gemini 3.1 Pro bei 94,3 %. Der 0,2-Punkte-Abstand liegt innerhalb der Lauf-zu-Lauf-Varianz. Wählen Sie Ihr Modell nicht mehr nach GPQA aus.
Preise: Wo Gemini Leise Gewinnt
Alle drei Anbieter nennen Preise pro Million Tokens, und Googles Preisstruktur ist darauf ausgelegt, Anthropic direkt zu treffen. Hier die Aufschlüsselung für die Flaggschiff-Tier jedes Anbieters.
Preise pro Million Tokens (Standard-Tier)
| Modell | Input (kurz) | Output (kurz) | Input (lang) | Output (lang) |
|---|---|---|---|---|
| Claude Opus 4.7 | 5,00 $ | 25,00 $ | 5,00 $ | 25,00 $ |
| GPT-5.4 | 2,50 $ | 15,00 $ | 5,00 $ | 22,50 $ |
| Gemini 3.1 Pro | 2,00 $ | 12,00 $ | 4,00 $ | 18,00 $ |
Die Schwellen für kurzen Kontext unterscheiden sich pro Anbieter. GPT-5.4 verdoppelt seinen Input-Preis über 272k Tokens. Gemini 3.1 Pro tut dasselbe über 200k. Opus 4.7 hat keine Stufe: 5 $/25 $ flach. Wenn Sie regelmäßig riesige Prompts fahren, kann der flache Preis von Opus 4.7 bei Long-Context-Workflows tatsächlich gewinnen, auch wenn er oben drauf teuer aussieht.
Der versteckte Joker: Tokenizer-Änderungen
Opus 4.7 hat einen neuen Tokenizer, der je nach Inhalt 1,0x bis 1,35x mehr Tokens verbraucht als Opus 4.6. Das ist eine stille Preiserhöhung von 0-35 % bei einem Modell, dessen Listenpreis "unverändert" ist. Wenn Sie budgetieren, rechnen Sie mit einer realen Kostensteigerung von 10-15 % gegenüber Opus 4.6, nicht null.
Echte Rechnung: Was 1M Tokens Kosten
Brauchen Sie Hilfe bei der Umsetzung?
Über 50 Umsetzungen · 60 % schneller · 2–4 Wochen
Benchmarks sind abstrakt. Geld ist es nicht. Hier ist, was eine realistische agentische Last auf jedem Modell kostet, angenommen ein 50/50-Split zwischen Input und Output bei runden 1M Tokens pro Tag.
Tageskosten bei 1M Input + 1M Output Tokens
| Modell | Input-Kosten | Output-Kosten | Gesamt pro Tag | Pro Monat |
|---|---|---|---|---|
| Claude Opus 4.7 | 5,00 $ | 25,00 $ | 30,00 $ | 900 $ |
| GPT-5.4 (kurz) | 2,50 $ | 15,00 $ | 17,50 $ | 525 $ |
| Gemini 3.1 Pro (kurz) | 2,00 $ | 12,00 $ | 14,00 $ | 420 $ |
Über einen 30-Tage-Monat kostet Opus 4.7 480 $ mehr als Gemini 3.1 Pro bei gleichem Volumen. Wenn Ihre Last SWE-bench-Pro-förmig ist (reale GitHub-Issues lösen, werkzeugintensive Agenten fahren), ist Opus 4.7s Vorsprung von 10 Punkten diese 480 $ wahrscheinlich wert. Wenn Ihre Last Schreiben, Zusammenfassungen oder Recherche ist, ist Gemini 3.1 Pro auf demselben Qualitätsniveau die offensichtliche Wahl.
Cached Input reduziert die Rechnung weiter. GPT-5.4-Cache kostet 1,25 $ pro Million Tokens, ein 50 %-Rabatt, der automatisch auf wiederholenden Kontext angewendet wird. Wenn Sie über viele Anfragen hinweg auf demselben langen System-Prompt iterieren, unterbietet GPT-5.4s Cache beide Konkurrenten aggressiv beim effektiven Preis.
Wer Wirklich Wo Gewinnt
Gewinner nach Workload
| Workload | Gewinner | Warum |
|---|---|---|
| Produktionscode ausliefern | Claude Opus 4.7 | 64,3 % SWE-bench Pro, führt alle Coding-Benchmarks |
| Werkzeugintensive Agenten / MCP | Claude Opus 4.7 | 77,3 % MCP-Atlas, 9,2 Punkte vor GPT-5.4 |
| Computer-Use / Desktop-Automatisierung | Claude Opus 4.7 | 78,0 % OSWorld-Verified, 3 Punkte vor GPT-5.4 |
| Webrecherche / Deep Research | GPT-5.4 | 89,3 % BrowseComp, 10 Punkte vor Opus 4.7 |
| Finanzanalyse | Claude Opus 4.7 | 64,4 % Finance Agent v1.1 gegen 61,5 % GPT-5.4 |
| Günstiger Hochvolumen-Durchsatz | Gemini 3.1 Pro | Preise 2 $/12 $ plus solide 80,6 % auf SWE-bench Verified |
| Mehrsprachiges Wissen | Gemini 3.1 Pro | 92,6 % MMMLU gegen 91,5 % Opus 4.7 |
| Graduiertes Reasoning | Unentschieden (auf 0,2 Punkte) | 94,2 % / 94,4 % / 94,3 % GPQA Diamond |
Das Muster, das niemand erwähnt
Opus 4.7 gewinnt die meisten Kategorien. GPT-5.4 besitzt die Recherche. Gemini besitzt den Preis. Wenn Sie sich Opus 4.7 leisten können, ist es die Voreinstellung. Aber nur, wenn Ihr Engpass Coding oder Agenten ist. Für Recherche ist GPT-5.4 schlicht besser. Für Durchsatz im großen Stil gewinnt Gemini beim Preis ohne relevante Qualitätslücke bei den meisten Workloads.
Ehrliche Grenzen Für Alle Drei
Opus 4.7: Die BrowseComp-Regression (83,7 % auf 79,3 %) ist real. Wenn Ihr Workflow von Websuche abhängt, ist Opus 4.7 ein Downgrade gegenüber Opus 4.6. Der neue Tokenizer erhöht zudem still die effektiven Kosten um 10-35 % je nach Inhalt.
GPT-5.4: Kontextpreise verdoppeln sich über 272k Tokens. Der Terminal-Bench 2.0 "Sieg" verwendet einen selbst-gemeldeten Harness, der nicht direkt mit den Läufen von Opus 4.7 und Gemini 3.1 Pro vergleichbar ist. Behandeln Sie den als unbestätigt.
Gemini 3.1 Pro: Hinkt bei SWE-bench Pro um 10 Punkte hinterher. Keine veröffentlichte OSWorld-Zahl, was nahelegt, dass Google seiner Computer-Use-Story gegenüber Opus 4.7 und GPT-5.4 nicht traut. MCP-Support holt auf, liegt aber noch hinter Anthropics nativer Integration.
Eines Wählen - Je Nach Aufgabe
Entscheidungsrahmen
- 1Liefern Sie Code Vollzeit aus? Opus 4.7. Der Vorsprung von 6-10 Punkten bei SWE-bench ist den Aufpreis wert, und agentisches Coding ist sein entscheidender Vorteil.
- 2Fahren Sie werkzeugintensive Agenten? Opus 4.7. Der MCP-Atlas-Vorsprung und der OSWorld-Wert machen es zur agentischen Voreinstellung.
- 3Tiefe Webrecherche oder Wettbewerbsanalyse? GPT-5.4. Die 10-Punkte-Lücke bei BrowseComp ist der größte Abstand zwischen zwei beliebigen Modellen in diesem Vergleich.
- 4Hochvolumen-Generierung (Zusammenfassungen, Entwürfe, Übersetzungen)? Gemini 3.1 Pro. 60 % günstiger als Opus 4.7 ohne Qualitätslücke bei den gängigsten Workloads.
- 5Finanz- oder Analysearbeit? Opus 4.7 knapp, aber GPT-5.4 ist nah genug, dass die Differenz zwischen 5 $ und 2,50 $ meist gewinnt.
- 6Iterieren Sie über viele Anfragen hinweg auf demselben langen System-Prompt? GPT-5.4 mit aggressivem Prompt-Cache bei 1,25 $ pro 1M gecachter Tokens.
- 7Fahren Sie regelmäßig riesige Einzelprompts (300k+ Tokens)? Opus 4.7. Sein flacher 5 $/25 $-Preis schlägt beide Konkurrenten, sobald Long-Context-Zuschläge einsetzen.
Die größere Wahrheit: Niemand nutzt mehr nur eins davon. Das kostenbewusste Muster ist Gemini 3.1 Pro für Volumen, Opus 4.7 für Code, GPT-5.4 für Recherche, alle aus derselben Orchestrierungsschicht geroutet. Wenn Sie noch nicht über Modell-Routing nachdenken, zahlen Sie zu viel.
FAQ
Welches KI-Modell ist 2026 wirklich das beste?
Es hängt ganz von der Aufgabe ab. Claude Opus 4.7 führt alle Coding- und Agenten-Benchmarks. GPT-5.4 führt Webrecherche mit großem Abstand. Gemini 3.1 Pro ist 60 % günstiger bei wettbewerbsfähiger Qualität für die meisten allgemeinen Workloads. Graduiertes Reasoning (GPQA Diamond) ist gesättigt: Alle drei liegen bei rund 94 % und sind statistisch unentschieden.
Wie viel kostet Claude Opus 4.7 im Vergleich zu GPT-5.4?
Opus 4.7 kostet 5 $ Input / 25 $ Output pro Million Tokens, flach. GPT-5.4 kostet 2,50 $/15 $ bis 272k Tokens, dann 5 $/22,50 $ für längeren Kontext. Für kurze bis mittlere Prompts ist GPT-5.4 ungefähr der halbe Preis von Opus 4.7. Für sehr lange Prompts (300k+) komprimiert sich die Differenz, weil der Long-Context-Preis von GPT-5.4 dem flachen Satz von Opus 4.7 entspricht.
Was ist die größte Verbesserung von Opus 4.6 zu Opus 4.7?
SWE-bench Pro sprang von 53,4 % auf 64,3 %, eine Verbesserung um 11 Punkte. Das ist die größte Coding-Verbesserung, die Anthropic je in einer einzelnen Generation geliefert hat. OSWorld ging auch von 72,7 % auf 78,0 %. Der Preis blieb flach bei 5 $/25 $, obwohl der neue Tokenizer die effektiven Kosten stillschweigend um 10-35 % je nach Inhalt erhöht.
Sollte ich von Opus 4.6 zu Opus 4.7 wechseln?
Für Coding und agentische Arbeit, ja. Die Zuwächse bei SWE-bench Pro und MCP-Atlas sind signifikant. Für alles recherchelastige, nein. BrowseComp ist von 83,7 % auf 79,3 % zurückgegangen, also ist Opus 4.6 tatsächlich besser für Webrecherche. Opus 4.7 ist ein gezieltes Coding-Upgrade, kein universelles.
Ist Gemini 3.1 Pro wirklich 60 % günstiger als Claude Opus 4.7?
Bei Input-Tokens unter 200k, ja: 2 $ gegen 5 $. Bei Output-Tokens ist Gemini 12 $ gegen 25 $, also 52 % günstiger. Über 200k Kontext steigt Gemini auf 4 $/18 $, was immer noch 20-28 % günstiger ist als Opus 4.7s flacher 5 $/25 $. Die Kostenlücke ist real und konsistent.
Kann ich alle drei über dieselbe API nutzen?
Nicht direkt, aber Orchestrierungsschichten (LiteLLM, OpenRouter oder Ihr eigener Router) normalisieren die drei APIs, sodass Sie pro Anfrage routen können. Das ist das Muster, das ernsthafte Nutzer einsetzen: Gemini für Volumen, Opus 4.7 für Code, GPT-5.4 für Recherche. Nur-ein-Modell-Denken lässt Geld liegen.
Weiterlesen
Stay ahead of the AI curve
We test new AI tools every week and share honest results. Join our newsletter.

