KI-Benchmark-Leaderboard

Jeder Score, jede Quelle.

Quellenzitierte Benchmark-Daten für Frontier-KI-Modelle. Jede Zahl verlinkt auf ihre primäre oder glaubwürdige sekundäre Quelle. Keine Schätzungen, keine unverifizierten Zahlen.

Zuletzt aktualisiert2026-04-18
Verfolgte Modelle12
Verfolgte Benchmarks8
ModellAnbieterInput $/MOutput $/M
SWE-bench Verified
SWE-bench Pro
MCP-Atlas
OSWorld-Verified
BrowseComp
GPQA Diamond
Finance Agent v1.1
MMMLU
Claude Opus 4.7Anthropic$5.00$25.00
Claude Opus 4.6Anthropic$5.00$25.00
GPT-5.4OpenAI$2.50$15.00
Gemini 3.1 ProGoogle$2.00$12.00
Grok 4xAI$3.00$15.00
Grok 4 FastxAI$0.20$0.50
Grok 4.20xAI$2.00$6.00
DeepSeek V3.2DeepSeek$0.26$0.42
Qwen 3.5 397BAlibaba$0.39$2.34
Llama 4 MaverickMeta$0.15$0.60
Kimi K2 ThinkingMoonshot AI$0.60$2.50
GLM 5Z.ai$0.72$2.30
Verifiziert (primäre oder glaubwürdige sekundäre Quelle)
Selbst-gemeldet (Anbieter-Marketing, nicht unabhängig repliziert)
Leere Zellen bedeuten, der Score ist nicht offengelegt oder noch nicht verifiziert. Wir schätzen nicht.

Redaktionelle Richtlinie

Jeder Score muss eine Primär- oder glaubwürdige Sekundärquellen-URL zitieren. Selbst-gemeldete Benchmarks werden als nicht verifiziert markiert. Wenn ein Score umstritten ist oder die Quelle fehlt, wird die Zelle ausgelassen, statt sie mit einer Schätzung zu füllen.

Verwandte Analysen

Vollständige Vergleiche auf Basis dieser Daten.