Leaderboard de Benchmarks de IA

Cada puntuación, cada fuente.

Datos de benchmarks desde fuentes oficiales para modelos de IA frontera. Cada número enlaza a la fuente usada. Sin estimaciones, sin cifras sin fuente.

Última actualización2026-05-12
Modelos rastreados13
Benchmarks rastreados12
ModeloProveedorEntrada $/MSalida $/M
SWE-bench Pro
Terminal-Bench 2.0
MCP-Atlas
Toolathlon
OSWorld-Verified
BrowseComp
GPQA Diamond
FrontierMath T1-3
ARC-AGI-2
Finance Agent v1.1
GDPval
CyberGym
GPT-5.5OpenAI$5.00$30.00
GPT-5.5 ProOpenAI$30.00$180.00
Claude Opus 4.7Anthropic$5.00$25.00
GPT-5.4OpenAI$2.50$15.00
Gemini 3.1 ProGoogle$2.00$12.00
Gemini 3.1 Flash-LiteGoogle$0.25$1.50
DeepSeek V4 FlashDeepSeek$0.14$0.28
DeepSeek V4 ProDeepSeek$0.43$0.87
Grok 4xAI$3.00$15.00
Grok 4 FastxAI$0.20$0.50
Llama 4 MaverickMeta via Groq$0.50$0.77
Kimi K2.6Moonshot AI$0.95$4.00
GLM 5Z.ai$1.00$3.20
URL de fuente oficial
Fuente oficial comparativa
Las celdas vacías significan que no encontramos una fuente oficial. No estimamos.

Política editorial

Cada puntuación debe citar una URL oficial del proveedor, del lanzamiento del modelo o del benchmark. Si faltan datos oficiales, la celda se omite en lugar de rellenarse con una estimación.

Análisis profundo relacionado

Comparaciones completas basadas en estos datos.