Leaderboard de Benchmarks IA

Chaque score, chaque source.

Données de benchmarks issues de sources officielles pour les modèles d’IA frontier. Chaque chiffre renvoie à la source utilisée. Pas d’estimations, pas de chiffres sans source.

Dernière mise à jour2026-05-12
Modèles suivis13
Benchmarks suivis12
ModèleFournisseurEntrée $/MSortie $/M
SWE-bench Pro
Terminal-Bench 2.0
MCP-Atlas
Toolathlon
OSWorld-Verified
BrowseComp
GPQA Diamond
FrontierMath T1-3
ARC-AGI-2
Finance Agent v1.1
GDPval
CyberGym
GPT-5.5OpenAI$5.00$30.00
GPT-5.5 ProOpenAI$30.00$180.00
Claude Opus 4.7Anthropic$5.00$25.00
GPT-5.4OpenAI$2.50$15.00
Gemini 3.1 ProGoogle$2.00$12.00
Gemini 3.1 Flash-LiteGoogle$0.25$1.50
DeepSeek V4 FlashDeepSeek$0.14$0.28
DeepSeek V4 ProDeepSeek$0.43$0.87
Grok 4xAI$3.00$15.00
Grok 4 FastxAI$0.20$0.50
Llama 4 MaverickMeta via Groq$0.50$0.77
Kimi K2.6Moonshot AI$0.95$4.00
GLM 5Z.ai$1.00$3.20
URL de source officielle
Source officielle comparative
Les cellules vides signifient qu'aucune source officielle n'a été trouvée. On n’estime pas.

Politique éditoriale

Chaque score doit citer une URL officielle du fournisseur, du lancement du modèle ou du benchmark. Quand les données officielles manquent, la cellule reste vide au lieu d'être remplie avec une estimation.

Analyses approfondies liées

Comparaisons complètes construites sur ces données.