Leaderboard de Benchmarks IA

Chaque score, chaque source.

Données de benchmarks avec sources citées pour les modèles d’IA frontier. Chaque chiffre renvoie à sa source primaire ou secondaire crédible. Pas d’estimations, pas de chiffres non vérifiés.

Dernière mise à jour2026-04-18
Modèles suivis12
Benchmarks suivis8
ModèleFournisseurEntrée $/MSortie $/M
SWE-bench Verified
SWE-bench Pro
MCP-Atlas
OSWorld-Verified
BrowseComp
GPQA Diamond
Finance Agent v1.1
MMMLU
Claude Opus 4.7Anthropic$5.00$25.00
Claude Opus 4.6Anthropic$5.00$25.00
GPT-5.4OpenAI$2.50$15.00
Gemini 3.1 ProGoogle$2.00$12.00
Grok 4xAI$3.00$15.00
Grok 4 FastxAI$0.20$0.50
Grok 4.20xAI$2.00$6.00
DeepSeek V3.2DeepSeek$0.26$0.42
Qwen 3.5 397BAlibaba$0.39$2.34
Llama 4 MaverickMeta$0.15$0.60
Kimi K2 ThinkingMoonshot AI$0.60$2.50
GLM 5Z.ai$0.72$2.30
Vérifié (source primaire ou secondaire crédible)
Auto-rapporté (marketing fournisseur, non répliqué indépendamment)
Les cellules vides signifient que le score n’a pas été divulgué ou n’est pas encore vérifié. On n’estime pas.

Politique éditoriale

Chaque score doit citer une URL de source primaire ou secondaire crédible. Les benchmarks auto-rapportés sont marqués comme non vérifiés. Quand un score est contesté ou que la source manque, la cellule est omise plutôt que remplie avec une estimation.

Analyses approfondies liées

Comparaisons complètes construites sur ces données.