Más allá del discurso de lanzamiento, la pregunta relevante para el usuario no es qué promete cada laboratorio, sino cómo se colocan estos modelos frente a otros que ya se usan de forma cotidiana, como GPT-5.2 de OpenAI o Gemini de Google. Para responderlo, conviene mirar evaluaciones comparables entre modelos, como las que publica Artificial Analysis, que permiten contrastar rendimiento en distintas dimensiones sin depender solo del anuncio de cada empresa.
Los rankings que se presentan a continuación provienen de Artificial Analysis , un sitio especializado en la evaluación comparativa de modelos de inteligencia artificial en diferentes escenarios.
Ranking general de inteligencia: cómo se ubican Sonnet, Opus, GPT y Gemini
El Artificial Analysis Intelligence Index compara el rendimiento general en razonamiento, conocimiento y tareas complejas mediante un promedio normalizado de múltiples benchmarks técnicos exigentes.
Top 10:
- Claude Opus 4.6 (max): 53
- Claude Sonnet 4.6 (max): 51
- GPT-5.2 (high): 51
- GLM-5: 50
- GPT-5.2 Codex (high): 49
- Gemini 3 Pro Preview (high): 48
- Kimi K2.5: 47
- Gemini 3 Flash: 46
- Claude Opus 4.6: 46
- Qwen3.5 39B A17B: 45
Modelos con razonamiento explícito vs. sin razonamiento
La clasificación por tipo de arquitectura usa el mismo índice compuesto del ranking general, pero separa los modelos según si incorporan razonamiento explícito o no. Esto permite observar cómo cambia el rendimiento dentro del mismo tipo de enfoque técnico.
Top 10:
- Claude Opus 4.6 (max): 53 (con razonamiento)
- Claude Sonnet 4.6 (max): 51 (con razonamineto)
- GPT-5.2 (high): 51 (con razonamineto)
- GLM-5: 50 (con razonamineto)
- GPT-5.2 Codex (high): 49 (con razonamineto)
- Gemini 3 Pro Preview (high): 48 (con razonamineto)
- Kimi K2.5: 47 (con razonamineto)
- Gemini 3 Flash: 46 (con razonamineto)
- Claude Opus 4.6: 46 (sin razonamiento)
- Qwen3.5 39B A17B: 45 (con razonamineto)