Resumen rápido: comprobado el 10 de mayo de 2026: si necesitas un default, empieza por el trabajo, no por la marca. Claude Opus 4.7 es la opción más segura para coding difícil y trabajo profesional largo. GPT-5.2 es la referencia oficial actual de OpenAI, no GPT-5.5. Gemini 3.1 Pro destaca cuando importan investigación, multimodal y contexto largo. DeepSeek V4 Flash es el default de coste para API con 1M de contexto, y V4 Pro merece pruebas en tareas más difíciles mientras dure el descuento.
- Anthropic dice que Claude Opus 4.7 salió el 16 de abril de 2026 y mantiene el precio de Opus 4.6: $5 input y $25 output por 1M tokens
- La página oficial de OpenAI lista GPT-5.2 a $1.75 input, $0.175 input cacheado y $14 output por 1M tokens
- La página oficial de OpenAI no lista GPT-5.5 en esta actualización
- Google lista Gemini 3.1 Pro Preview a $2/$12 por 1M tokens hasta prompts de 200K, y $4/$18 por encima de 200K
- Google lista 1M tokens de entrada, 64K de salida y resultados fuertes en GPQA, BrowseComp, SWE-Bench y Terminal-Bench
- DeepSeek V4 Flash aparece a $0.14 input sin caché y $0.28 output por 1M tokens
- DeepSeek V4 Pro tiene descuento del 75% hasta el 31 de mayo de 2026: $0.435 input sin caché y $0.87 output por 1M tokens
- DeepSeek dice que deepseek-chat y deepseek-reasoner se retiran después del 24 de julio de 2026 a las 15:59 UTC
Esta página conserva el slug antiguo porque esa URL ya existe en Google. El contenido sí necesitaba corrección: la página pública actual de OpenAI no lista GPT-5.5, así que esta actualización usa GPT-5.2.
Revisé páginas oficiales de Anthropic, OpenAI, Google y DeepSeek. Cuando un proveedor afirma algo sobre benchmarks, lo trato como claim del proveedor, no como prueba independiente. El objetivo no es coronar un ganador universal. Es decirte qué modelo probar primero para el trabajo que tienes delante.
Respuesta corta
Elige por workload, no por marca.
Mejor modelo por caso de uso
| Caso de uso | Primer modelo a probar | Razón |
|---|---|---|
| Coding difícil y trabajo de software sostenido | Claude Opus 4.7 | Anthropic lo posiciona como un Opus más fuerte para coding, agentes y trabajo profesional |
| Ecosistema OpenAI o workflows tipo Codex | GPT-5.2 o GPT-5.2 Codex | La página oficial de OpenAI lista GPT-5.2 y GPT-5.2 Codex, no GPT-5.5 |
| Investigación, multimodal y herramientas Google | Gemini 3.1 Pro | Google lista GPQA, BrowseComp, SWE-Bench y soporte de contexto 1M |
| API barata con contexto 1M | DeepSeek V4 Flash | El precio oficial de DeepSeek es mucho menor que los flagship occidentales |
| Experimentos con pesos DeepSeek abiertos | DeepSeek V4 Pro o Flash | DeepSeek enlaza pesos abiertos desde la nota oficial de V4 |
Por qué usa GPT-5.2, no GPT-5.5
La versión anterior confiaba demasiado en un nombre que OpenAI no lista ahora.
La versión previa hablaba de precios y benchmarks de GPT-5.5 como si fueran hechos oficiales cerrados. Eso ya no es seguro. La página oficial de precios de OpenAI lista GPT-5.2, GPT-5.1, GPT-5, GPT-5.2 Codex, GPT-5.1 Codex y modelos relacionados. No lista GPT-5.5.
Corrección hecha
La URL todavía contiene gpt-5-5, pero el artículo usa GPT-5.2 como referencia oficial actual de OpenAI. Así evitamos publicar precios no soportados sin romper la URL existente.
¿Necesitas ayuda para implementar esto?
Más de 50 implementaciones · 60% más rápido · 2-4 semanas
Snapshot de precios
Páginas públicas oficiales, revisadas el 10 de mayo de 2026.
Precios de API por 1M tokens
| Modelo | Input | Input cacheado | Output | Notas |
|---|---|---|---|---|
| Claude Opus 4.7 | $5.00 | No listado en el anuncio | $25.00 | Anthropic dice que mantiene precio de Opus 4.6 |
| GPT-5.2 | $1.75 | $0.175 | $14.00 | Página oficial de precios de OpenAI |
| GPT-5.2 Pro | $21.00 | - | $168.00 | Tier premium Pro de OpenAI |
| Gemini 3.1 Pro Preview, <=200K prompt | $2.00 | $0.20 context cache | $12.00 | Precio estándar Gemini API |
| Gemini 3.1 Pro Preview, >200K prompt | $4.00 | $0.40 context cache | $18.00 | Precio estándar Gemini API |
| DeepSeek V4 Flash | $0.0028 caché hit / $0.14 caché miss | - | $0.28 | Precio oficial DeepSeek |
| DeepSeek V4 Pro con descuento | $0.003625 caché hit / $0.435 caché miss | - | $0.87 | 75% descuento hasta el 31 de mayo de 2026 |
Para coste puro de API, DeepSeek V4 Flash gana por mucho. En modelos frontier alojados, GPT-5.2 es más barato que Opus 4.7 en precio de lista. Gemini 3.1 Pro sube cuando los prompts pasan de 200K tokens, pero trae el stack de Google, 1M de entrada y claims oficiales fuertes.
Claims de benchmarks
Útiles, pero reportados por los proveedores.
Fortalezas listadas oficialmente
| Modelo | Fortalezas reportadas | Cuidado |
|---|---|---|
| Claude Opus 4.7 | Anthropic habla de mejoras en coding, visión, trabajo multi-step, seguimiento de instrucciones y tareas profesionales | Prueba migración de prompts porque seguir instrucciones con más rigor puede cambiar comportamiento |
| GPT-5.2 | La página de precios de OpenAI confirma disponibilidad pública y variantes Codex | No arrastres claims antiguos de GPT-5.5 |
| Gemini 3.1 Pro | Google lista GPQA Diamond 94.3%, SWE-Bench Verified 80.6%, Terminal-Bench 68.5%, BrowseComp 85.9% | El comportamiento y precio de un modelo Preview pueden cambiar |
| DeepSeek V4 Pro | DeepSeek dice que V4 Pro lidera modelos abiertos actuales en conocimiento general y supera modelos abiertos en Math/STEM/Coding | Las tablas detalladas en texto son limitadas en la página oficial |
| DeepSeek V4 Flash | DeepSeek dice que Flash se acerca a V4 Pro en razonamiento y lo iguala en tareas agentic simples | Pruébalo en tus tareas antes de reemplazar modelos más caros |
Coding y agentes
Claude para coding duro, DeepSeek para workers baratos, GPT-5.2 para OpenAI.
Para coding difícil, empezaría con Claude Opus 4.7 si el presupuesto lo permite. El lanzamiento de Anthropic apunta claramente a ingeniería de software avanzada, tareas largas, mejor seguimiento de instrucciones y trabajo profesional. Es la primera prueba premium más segura para codebases grandes.
Si tu flujo ya vive dentro de OpenAI, usa GPT-5.2 o GPT-5.2 Codex como referencia oficial actual. Los claims viejos sobre GPT-5.5 no deberían decidir compras ni routing salvo que OpenAI publique ese modelo en docs oficiales.
Si estás construyendo routing, DeepSeek V4 Flash es el worker barato obvio. Úsalo para tareas de implementación, extracción de contexto largo y llamadas agentic de alto volumen. Sube a DeepSeek V4 Pro o a un flagship occidental cuando la tarea necesite más planificación, juicio o fiabilidad.
Investigación y contexto largo
Gemini y DeepSeek importan por razones distintas.
Gemini 3.1 Pro tiene el perfil oficial más fuerte para investigación: Google lista 94.3% en GPQA Diamond, 85.9% en BrowseComp con búsqueda y Python, 1M tokens de entrada y 64K de salida. Es una primera prueba fuerte para investigación, multimodal y cargas integradas con Google.
DeepSeek V4 es el caso raro por coste en contexto largo. Si tu workload es sobre todo "leer mucho, extraer, resumir, transformar", V4 Flash merece el primer benchmark porque la diferencia de precio cambia la economía del producto.
Fuentes oficiales revisadas
Fuentes primarias para la actualización factual.
- Anthropic: Introducing Claude Opus 4.7
- Anthropic: Claude Opus 4.7 model page
- OpenAI API pricing
- Google DeepMind: Gemini 3.1 Pro
- Google Gemini API pricing
- DeepSeek V4 Preview Release
- DeepSeek Models & Pricing
Conclusión
No hay ganador universal.
Si necesitas una regla simple: Claude Opus 4.7 para coding duro y trabajo profesional, GPT-5.2 para workflows OpenAI actuales, Gemini 3.1 Pro para investigación y multimodal con contexto largo, y DeepSeek V4 Flash para volumen de API barato con contexto de 1M.
El viejo marco GPT-5.5 era el principal riesgo de este post. Ya está corregido. Para detalles de migración solo de DeepSeek, lee la guía DeepSeek V4. Para elegir workflow, usa el AI Model Picker. Para comparar gasto mensual entre modelos, usa la calculadora de costes de IA.
Sigue leyendo
Stay ahead of the AI curve
We test new AI tools every week and share honest results. Join our newsletter.