Publicidad
Revista Digital
Publicidad

ChatGPT, Claude o Gemini: ¿cuál es la IA que más miente en sus respuestas?

Un análisis técnico revela qué asistentes de inteligencia artificial ofrecen respuestas más precisas y cuáles presentan mayor riesgo de información incorrecta.
vie 13 marzo 2026 10:26 AM
chatgpt-claude-gemini-cual-ia-miente-en-sus-respuestas
Un análisis de Artificial Analysis revela qué modelos de IA presentan más errores al responder y cuáles ofrecen respuestas más confiables. (alexsl/Getty Images)

La inteligencia artificial generativa se ha convertido en una de las herramientas más utilizadas para buscar información, resolver dudas o generar contenido en segundos. Millones de usuarios recurren diariamente a estos asistentes digitales, lo que también ha abierto una pregunta cada vez más frecuente: qué chatbot de IA miente más en sus respuestas.

Publicidad

Ese debate ocurre en medio de una competencia cada vez más intensa entre chatbots. Durante años, ChatGPT dominó el mercado, pero ese liderazgo comenzó a enfrentar presión de nuevos competidores. El 1 de marzo de 2026, Claude, la aplicación desarrollada por Anthropic, alcanzó el primer lugar entre las apps gratuitas de la App Store tras escalar del sexto puesto en apenas cuatro días.

Aunque Claude registra un crecimiento acelerado —con 18.9 millones de usuarios web, 2.9 millones móviles y un aumento de más del 60% en usuarios gratuitos desde enero de 2026—, ChatGPT mantiene la mayor escala global con 800 millones de usuarios activos semanales y más de 1,000 millones de consultas diarias.

Para saber qué chatbots ofrecen respuestas más confiables y cuáles presentan mayor riesgo de errores o información inventada, Expansión consultó al sitio especializado Artificial Analysis, que evalúa las habilidades de los modelos disponibles en el mercado.

Los modelos de IA con mayor capacidad para responder preguntas complejas

Una de las métricas utilizadas para evaluar el desempeño de los chatbots es el Artificial Analysis Intelligence Index, este indicador analiza habilidades como razonamiento, resolución de problemas técnicos, comprensión de preguntas especializadas y manejo de información compleja.

Top 10 de modelos con mayor puntuación en el índice de inteligencia

- Gemini 3.1 Pro Preview — 57

- GPT-5.4 (xhigh) — 57

- GPT-5.3 (Codex high) — 54

- Claude Opus 4.6 (max) — 53

- Claude Sonnet 4.6 (max) — 52

- GPT-5.2 (xhigh) — 51

- GLM-5 — 50

- Grok 4.20 Beta 0309 — 48

- Kimi K2.5 — 47

- Gemini 3 Flash — 46

El ranking que revela qué chatbots se equivocan menos al responder

Para analizar la precisión, el Omniscience Index premia las respuestas correctas, penaliza las incorrectas y no aplica castigos cuando el sistema decide no responder. La escala del índice va de -100 a 100, donde valores más altos indican mayor precisión.

Publicidad

Top 10 de modelos más confiables según el índice de omnisciencia:

- Gemini 3.1 Pro Preview — 33

- Claude Opus 4.6 (max) — 14

- Grok 4.20 Beta 0309 — 13

- Claude Sonnet 4.6 (max) — 12

- Gemini 3 Flash — 12

- GPT-5.3 (Codex high) — 10

- GPT-5.4 (xhigh) — 6

- GLM-5 — 2

- GPT-5.2 (xhigh) — -1

- Claude 4.6 Haiku — -4

Los chatbots que responden más preguntas, incluso cuando no siempre tienen la respuesta

Otra de las métricas evaluadas es el Openness Index, que analiza qué tan dispuestos están los sistemas a ofrecer respuestas frente a distintos tipos de solicitudes.

Top 10 de modelos con mayor apertura

- K2 Think V2 — 89

- NVIDIA Nemotron 3 Super — 83

- NVIDIA Nemotron 3 Nano — 83

- GLM-5 — 50

- gpt-oss-20B (high) — 39

- gpt-oss-120B (high) — 39

- Mistral Large 3 — 39

- Qwen3.5 397B A17B — 39

- Kimi K2.5 — 33

- Llama 4 Maverick — 28

El chatbot que más errores comete en sus respuestas

Las evaluaciones de Artificial Analysis muestran que algunos modelos obtienen puntuaciones negativas en el índice de omnisciencia, lo que significa que registran más respuestas incorrectas que aciertos.

Entre los sistemas con peores resultados aparecen gpt-oss-20B, K-EXAONE y Mi:dm K2.5 Pro, cuyos puntajes se ubican entre los más bajos de la evaluación.

El chatbot más confiable

Resultados del AA-Omniscience Index también permiten identificar qué modelo muestra el mayor nivel de confiabilidad en sus respuestas.

De acuerdo con la medición, Gemini 3.1 Pro Preview obtiene la puntuación más alta del ranking con 33 puntos, una cifra que refleja mayor precisión frente a otros sistemas evaluados.

Publicidad

Tags

Newsletter

Únete a nuestra comunidad. Te mandaremos una selección de nuestras historias.

Publicidad

Publicidad