Tecnología

¿Qué IA rinde mejor hoy? Sonnet 4.6 frente a Opus, GPT-5.2 y Gemini

Los comparativos revelan diferencias clave entre modelos líderes. Este desglose traduce las métricas en decisiones prácticas para elegir con base en el tipo de tarea.

mié 18 febrero 2026 01:46 PM

Anthropic presentó una nueva versión de su línea Sonnet y señaló mejoras en consistencia, seguimiento de instrucciones, uso de computadora y razonamiento en contextos largos. (Expansión|Gemini)

Expansión Digital

El anuncio de Claude Sonnet 4.6 reactivó la conversación sobre qué modelo de IA conviene usar hoy para tareas de programación, análisis de información y trabajo con grandes volúmenes de contexto. Anthropic presentó esta versión como una actualización de su línea Sonnet y señaló mejoras en consistencia, seguimiento de instrucciones, uso de computadora y razonamiento en contextos largos.

Lee: El creador de OpenClaw puso a competir a OpenAI y Anthropic: la diferencia que lo hizo elegir

Más allá del discurso de lanzamiento, la pregunta relevante para el usuario no es qué promete cada laboratorio, sino cómo se colocan estos modelos frente a otros que ya se usan de forma cotidiana, como GPT-5.2 de OpenAI o Gemini de Google. Para responderlo, conviene mirar evaluaciones comparables entre modelos, como las que publica Artificial Analysis, que permiten contrastar rendimiento en distintas dimensiones sin depender solo del anuncio de cada empresa.

Los rankings que se presentan a continuación provienen de Artificial Analysis , un sitio especializado en la evaluación comparativa de modelos de inteligencia artificial en diferentes escenarios.

Ranking general de inteligencia: cómo se ubican Sonnet, Opus, GPT y Gemini

El Artificial Analysis Intelligence Index compara el rendimiento general en razonamiento, conocimiento y tareas complejas mediante un promedio normalizado de múltiples benchmarks técnicos exigentes.

Top 10:

- Claude Opus 4.6 (max): 53

- Claude Sonnet 4.6 (max): 51

- GPT-5.2 (high): 51

- GLM-5: 50

- GPT-5.2 Codex (high): 49

- Gemini 3 Pro Preview (high): 48

- Kimi K2.5: 47

- Gemini 3 Flash: 46

- Claude Opus 4.6: 46

- Qwen3.5 39B A17B: 45

Modelos con razonamiento explícito vs. sin razonamiento

La clasificación por tipo de arquitectura usa el mismo índice compuesto del ranking general, pero separa los modelos según si incorporan razonamiento explícito o no. Esto permite observar cómo cambia el rendimiento dentro del mismo tipo de enfoque técnico.

Top 10:

- Claude Opus 4.6 (max): 53 (con razonamiento)

- Claude Sonnet 4.6 (max): 51 (con razonamineto)

- GPT-5.2 (high): 51 (con razonamineto)

- GLM-5: 50 (con razonamineto)

- GPT-5.2 Codex (high): 49 (con razonamineto)

- Gemini 3 Pro Preview (high): 48 (con razonamineto)

- Kimi K2.5: 47 (con razonamineto)

- Gemini 3 Flash: 46 (con razonamineto)

- Claude Opus 4.6: 46 (sin razonamiento)

- Qwen3.5 39B A17B: 45 (con razonamineto)

Quién responde mejor cuando no sabe: la tasa de no alucinaciones

Aquí se muestra qué tan bien un modelo evita inventar información cuando no conoce la respuesta. El porcentaje indica cuántas veces reconoce incertidumbre o responde sin alucinar en pruebas diseñadas para forzar errores.

Top 10:

- Claude 4.5 Haiku: 74%

- GLM-5: 66%

- Claude Sonnet 4.6 (max): 62%

- Claude 4.6 Opus: 52%

- MiMo-V2-Flash (Feb 2026): 52%

- K2 Think V2: 48%

- Claude Opus 4.6 (max): 40%

- Grok 4: 36%

- Kimi K2.5: 36%

- KAT-Coder-Pro V1: 34%

Recomendamos

Opinión

Si la IA no te recomienda, tu marca no existe en 2026

Razonamiento y conocimiento en pruebas de alta dificultad

Humanity’s Last Exam mide desempeño en un examen multidisciplinar de alta dificultad que exige razonamiento y conocimiento general, no solo memoria. El porcentaje refleja el nivel de aciertos en este tipo de tareas.

Top 10:

- Gemini 3 Pro Preview: 37.2%

- Claude Opus 4.6 (max): 36.7%

- GPT-5.2: 35.4%

- Gemini 3 Flash: 34.7%

- GPT-5.2 Codex: 33.5%

- KAT-Coder-Pro V1: 30.2%

- Claude Sonnet 4.6 (max): 29.4%

- Kimi K2.5: 27.3%

- Qwen3.5 39B A17B: 27.2%

- GLM-5: 23.9%

Entonces, qué modelo de IA conviene más

Con las métricas disponibles, cada modelo destaca en un frente distinto.

Claude Opus 4.6 (max) lidera el índice general de inteligencia, que integra razonamiento, conocimiento y tareas complejas.

Claude Sonnet 4.6 (max) se ubica al nivel de GPT-5.2 (high) en el índice general y registra una mejor tasa de no alucinación que Opus 4.6 (max).

Gemini 3 Pro Preview encabeza Humanity’s Last Exam, la prueba de razonamiento y conocimiento en un examen multidisciplinar de alta dificultad.

GPT-5.2 (high) se mantiene dentro del grupo de mayor rendimiento en el índice general y entre los primeros lugares en Humanity’s Last Exam.

Qué conviene usar según la tarea

Rendimiento general en múltiples dimensiones: Claude Opus 4.6 (max).

Equilibrio entre desempeño compuesto y menor propensión a alucinar: Claude Sonnet 4.6 (max).

Pruebas de razononamiento y conocimiento de alta dificultad: Gemini 3 Pro Preview.

Desempeño compuesto comparable a Sonnet en el índice general: GPT-5.2 (high).

¿Qué IA rinde mejor hoy? Sonnet 4.6 frente a Opus, GPT-5.2 y Gemini

Ranking general de inteligencia: cómo se ubican Sonnet, Opus, GPT y Gemini

Modelos con razonamiento explícito vs. sin razonamiento

Quién responde mejor cuando no sabe: la tasa de no alucinaciones

Recomendamos

Si la IA no te recomienda, tu marca no existe en 2026

Razonamiento y conocimiento en pruebas de alta dificultad

Entonces, qué modelo de IA conviene más

¿Se suspenden las clases el 13 de marzo? Esto dice la SEP sobre el megapuente

BanCoppel: “La cartera de autos de CI Banco nos trajo 27,000 clientes nuevos”

Meta lanza sus propios chips de IA a pesar de acuerdos con Nvidia y AMD

La inteligencia artificial redefine la competitividad en la industria del empaque

Qué conviene usar según la tarea

Tags

Recomendaciones

En 2026, el 60% de los empleos se transforma por la IA

Más acerca del autor:

Newsletter