KI-Benchmark-Leaderboard
Jeder Score, jede Quelle.
Quellenzitierte Benchmark-Daten für Frontier-KI-Modelle. Jede Zahl verlinkt auf ihre primäre oder glaubwürdige sekundäre Quelle. Keine Schätzungen, keine unverifizierten Zahlen.
Zuletzt aktualisiert2026-04-18
Verfolgte Modelle12
Verfolgte Benchmarks8
| Modell | Anbieter | Input $/M | Output $/M | SWE-bench Verified | SWE-bench Pro | MCP-Atlas | OSWorld-Verified | BrowseComp | GPQA Diamond | Finance Agent v1.1 | MMMLU |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Claude Opus 4.7 | Anthropic | $5.00 | $25.00 | ||||||||
| Claude Opus 4.6 | Anthropic | $5.00 | $25.00 | ||||||||
| GPT-5.4 | OpenAI | $2.50 | $15.00 | — | — | ||||||
| Gemini 3.1 Pro | $2.00 | $12.00 | — | ||||||||
| Grok 4 | xAI | $3.00 | $15.00 | — | — | — | — | — | — | — | — |
| Grok 4 Fast | xAI | $0.20 | $0.50 | — | — | — | — | — | — | — | — |
| Grok 4.20 | xAI | $2.00 | $6.00 | — | — | — | — | — | — | — | — |
| DeepSeek V3.2 | DeepSeek | $0.26 | $0.42 | — | — | — | — | — | — | — | — |
| Qwen 3.5 397B | Alibaba | $0.39 | $2.34 | — | — | — | — | — | — | — | — |
| Llama 4 Maverick | Meta | $0.15 | $0.60 | — | — | — | — | — | — | — | — |
| Kimi K2 Thinking | Moonshot AI | $0.60 | $2.50 | — | — | — | — | — | — | — | — |
| GLM 5 | Z.ai | $0.72 | $2.30 | — | — | — | — | — | — | — | — |
Verifiziert (primäre oder glaubwürdige sekundäre Quelle)
Selbst-gemeldet (Anbieter-Marketing, nicht unabhängig repliziert)
Leere Zellen bedeuten, der Score ist nicht offengelegt oder noch nicht verifiziert. Wir schätzen nicht.
Redaktionelle Richtlinie
Jeder Score muss eine Primär- oder glaubwürdige Sekundärquellen-URL zitieren. Selbst-gemeldete Benchmarks werden als nicht verifiziert markiert. Wenn ein Score umstritten ist oder die Quelle fehlt, wird die Zelle ausgelassen, statt sie mit einer Schätzung zu füllen.
Verwandte Analysen
Vollständige Vergleiche auf Basis dieser Daten.