Leaderboard de Benchmarks de IA
Cada puntuación, cada fuente.
Datos de benchmarks con fuente citada para modelos de IA frontera. Cada número enlaza a su fuente primaria o secundaria creíble. Sin estimaciones, sin cifras no verificadas.
Última actualización2026-04-18
Modelos rastreados12
Benchmarks rastreados8
| Modelo | Proveedor | Entrada $/M | Salida $/M | SWE-bench Verified | SWE-bench Pro | MCP-Atlas | OSWorld-Verified | BrowseComp | GPQA Diamond | Finance Agent v1.1 | MMMLU |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Claude Opus 4.7 | Anthropic | $5.00 | $25.00 | ||||||||
| Claude Opus 4.6 | Anthropic | $5.00 | $25.00 | ||||||||
| GPT-5.4 | OpenAI | $2.50 | $15.00 | — | — | ||||||
| Gemini 3.1 Pro | $2.00 | $12.00 | — | ||||||||
| Grok 4 | xAI | $3.00 | $15.00 | — | — | — | — | — | — | — | — |
| Grok 4 Fast | xAI | $0.20 | $0.50 | — | — | — | — | — | — | — | — |
| Grok 4.20 | xAI | $2.00 | $6.00 | — | — | — | — | — | — | — | — |
| DeepSeek V3.2 | DeepSeek | $0.26 | $0.42 | — | — | — | — | — | — | — | — |
| Qwen 3.5 397B | Alibaba | $0.39 | $2.34 | — | — | — | — | — | — | — | — |
| Llama 4 Maverick | Meta | $0.15 | $0.60 | — | — | — | — | — | — | — | — |
| Kimi K2 Thinking | Moonshot AI | $0.60 | $2.50 | — | — | — | — | — | — | — | — |
| GLM 5 | Z.ai | $0.72 | $2.30 | — | — | — | — | — | — | — | — |
Verificado (fuente primaria o secundaria creíble)
Auto-reportado (marketing del proveedor, no replicado independientemente)
Las celdas vacías significan que la puntuación no se ha divulgado o verificado. No estimamos.
Política editorial
Cada puntuación debe citar una URL de fuente primaria o secundaria creíble. Los benchmarks auto-reportados se marcan como no verificados. Cuando una puntuación es disputada o la fuente falta, la celda se omite en lugar de rellenarse con una estimación.
Análisis profundo relacionado
Comparaciones completas basadas en estos datos.