Leaderboard de Benchmarks de IA

Cada puntuación, cada fuente.

Datos de benchmarks con fuente citada para modelos de IA frontera. Cada número enlaza a su fuente primaria o secundaria creíble. Sin estimaciones, sin cifras no verificadas.

Última actualización2026-04-18
Modelos rastreados12
Benchmarks rastreados8
ModeloProveedorEntrada $/MSalida $/M
SWE-bench Verified
SWE-bench Pro
MCP-Atlas
OSWorld-Verified
BrowseComp
GPQA Diamond
Finance Agent v1.1
MMMLU
Claude Opus 4.7Anthropic$5.00$25.00
Claude Opus 4.6Anthropic$5.00$25.00
GPT-5.4OpenAI$2.50$15.00
Gemini 3.1 ProGoogle$2.00$12.00
Grok 4xAI$3.00$15.00
Grok 4 FastxAI$0.20$0.50
Grok 4.20xAI$2.00$6.00
DeepSeek V3.2DeepSeek$0.26$0.42
Qwen 3.5 397BAlibaba$0.39$2.34
Llama 4 MaverickMeta$0.15$0.60
Kimi K2 ThinkingMoonshot AI$0.60$2.50
GLM 5Z.ai$0.72$2.30
Verificado (fuente primaria o secundaria creíble)
Auto-reportado (marketing del proveedor, no replicado independientemente)
Las celdas vacías significan que la puntuación no se ha divulgado o verificado. No estimamos.

Política editorial

Cada puntuación debe citar una URL de fuente primaria o secundaria creíble. Los benchmarks auto-reportados se marcan como no verificados. Cuando una puntuación es disputada o la fuente falta, la celda se omite en lugar de rellenarse con una estimación.

Análisis profundo relacionado

Comparaciones completas basadas en estos datos.