Leaderboard de Benchmarks IA
Chaque score, chaque source.
Données de benchmarks avec sources citées pour les modèles d’IA frontier. Chaque chiffre renvoie à sa source primaire ou secondaire crédible. Pas d’estimations, pas de chiffres non vérifiés.
Dernière mise à jour2026-04-18
Modèles suivis12
Benchmarks suivis8
| Modèle | Fournisseur | Entrée $/M | Sortie $/M | SWE-bench Verified | SWE-bench Pro | MCP-Atlas | OSWorld-Verified | BrowseComp | GPQA Diamond | Finance Agent v1.1 | MMMLU |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Claude Opus 4.7 | Anthropic | $5.00 | $25.00 | ||||||||
| Claude Opus 4.6 | Anthropic | $5.00 | $25.00 | ||||||||
| GPT-5.4 | OpenAI | $2.50 | $15.00 | — | — | ||||||
| Gemini 3.1 Pro | $2.00 | $12.00 | — | ||||||||
| Grok 4 | xAI | $3.00 | $15.00 | — | — | — | — | — | — | — | — |
| Grok 4 Fast | xAI | $0.20 | $0.50 | — | — | — | — | — | — | — | — |
| Grok 4.20 | xAI | $2.00 | $6.00 | — | — | — | — | — | — | — | — |
| DeepSeek V3.2 | DeepSeek | $0.26 | $0.42 | — | — | — | — | — | — | — | — |
| Qwen 3.5 397B | Alibaba | $0.39 | $2.34 | — | — | — | — | — | — | — | — |
| Llama 4 Maverick | Meta | $0.15 | $0.60 | — | — | — | — | — | — | — | — |
| Kimi K2 Thinking | Moonshot AI | $0.60 | $2.50 | — | — | — | — | — | — | — | — |
| GLM 5 | Z.ai | $0.72 | $2.30 | — | — | — | — | — | — | — | — |
Vérifié (source primaire ou secondaire crédible)
Auto-rapporté (marketing fournisseur, non répliqué indépendamment)
Les cellules vides signifient que le score n’a pas été divulgué ou n’est pas encore vérifié. On n’estime pas.
Politique éditoriale
Chaque score doit citer une URL de source primaire ou secondaire crédible. Les benchmarks auto-rapportés sont marqués comme non vérifiés. Quand un score est contesté ou que la source manque, la cellule est omise plutôt que remplie avec une estimation.
Analyses approfondies liées
Comparaisons complètes construites sur ces données.