Leaderboard de Benchmarks IA
Chaque score, chaque source.
Données de benchmarks issues de sources officielles pour les modèles d’IA frontier. Chaque chiffre renvoie à la source utilisée. Pas d’estimations, pas de chiffres sans source.
Dernière mise à jour2026-05-12
Modèles suivis13
Benchmarks suivis12
| Modèle | Fournisseur | Entrée $/M | Sortie $/M | SWE-bench Pro | Terminal-Bench 2.0 | MCP-Atlas | Toolathlon | OSWorld-Verified | BrowseComp | GPQA Diamond | FrontierMath T1-3 | ARC-AGI-2 | Finance Agent v1.1 | GDPval | CyberGym |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| GPT-5.5 | OpenAI | $5.00 | $30.00 | ||||||||||||
| GPT-5.5 Pro | OpenAI | $30.00 | $180.00 | — | — | — | — | — | — | — | — | — | |||
| Claude Opus 4.7 | Anthropic | $5.00 | $25.00 | — | |||||||||||
| GPT-5.4 | OpenAI | $2.50 | $15.00 | ||||||||||||
| Gemini 3.1 Pro | $2.00 | $12.00 | — | — | |||||||||||
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | — | — | — | — | — | — | — | — | — | — | — | — | |
| DeepSeek V4 Flash | DeepSeek | $0.14 | $0.28 | — | — | — | — | — | — | — | — | — | — | — | — |
| DeepSeek V4 Pro | DeepSeek | $0.43 | $0.87 | — | — | — | — | — | — | — | — | — | — | — | — |
| Grok 4 | xAI | $3.00 | $15.00 | — | — | — | — | — | — | — | — | — | — | — | — |
| Grok 4 Fast | xAI | $0.20 | $0.50 | — | — | — | — | — | — | — | — | — | — | — | — |
| Llama 4 Maverick | Meta via Groq | $0.50 | $0.77 | — | — | — | — | — | — | — | — | — | — | — | — |
| Kimi K2.6 | Moonshot AI | $0.95 | $4.00 | — | — | — | — | — | — | — | — | — | — | — | — |
| GLM 5 | Z.ai | $1.00 | $3.20 | — | — | — | — | — | — | — | — | — | — | — | — |
URL de source officielle
Source officielle comparative
Les cellules vides signifient qu'aucune source officielle n'a été trouvée. On n’estime pas.
Politique éditoriale
Chaque score doit citer une URL officielle du fournisseur, du lancement du modèle ou du benchmark. Quand les données officielles manquent, la cellule reste vide au lieu d'être remplie avec une estimation.
Analyses approfondies liées
Comparaisons complètes construites sur ces données.