Gemini 3: brillante y multimodal

Gemini 3 nació con una ambición distinta al lenguaje desarrollado por OpenAI, al afinar sus capacidades lingüísticas y concentró su ingeniería en la multimodalidad. El resultado es un modelo que ve, escucha y analiza imágenes con una fluidez notable en comparación con GPT-5.1, el modelo identifica de manera más optimizada las descripciones que realiza un usuario en la plataforma, pero también es capaz de proponer mejoras en imágenes gráficas a partir de datos.

En un ejercicio realizado por Expansión se le solicitó a modelos de IA generar una infografía a partir de un informe financiero de una compañía. En el gráfico se pidió destacar las verticales de negocio más relevantes de una empresa, así como un texto que explicara la situación de la firma a partir de un lenguaje accesible para el público en general.

Gemini generó una propuesta informativa clara y acompañada de imágenes, mientras que OpenAI estructuró gráficas especializadas en economía, un resultado alejado a lo que se le solicitó.

Para el texto, el comportamiento de Gemini es más sobrio, pero sigue siendo menos consistente que GPT-5.1 cuando la tarea exige cadenas lógicas largas o precisión factual fina.

Mientras las versiones pasadas de GPT ya mostraban una clara ventaja en español, GPT-5.1 amplía esa distancia. En pruebas comparativas, el modelo de OpenAI produce respuestas más naturales, con menos interferencias del inglés y mayor dominio de estructuras idiomáticas complejas.

Gemini 3, pese a mejorar significativamente, mantiene anglicismos sintácticos y errores gramaticales, pero si se desarrollan los prompts en inglés la experiencia de usuario resulta más eficiente respecto a las versiones pasadas.

