Tecnología

Google lanza Gemini 1.5 Pro, una versión más capaz de su modelo de IA

La empresa de Mountain View no se quiere quedar atrás en la carrera de la IA y por ello presentó su herramienta más poderosa hasta el momento.

vie 16 febrero 2024 10:00 AM

Añadir Expansión en Google

Gemini, la IA de Google ya está en México y así se puede usar — En Android es posible acceder a Google Gemini a través del asistente de Google. (Foto: CFOTO/Future Publishing/Getty Images)

Expansión

@ExpansionMx

La carrera por la Inteligencia Artificial es cada vez más compleja. Ayer, OpenAI lanzó su herramienta para crear videos a partir de texto, Sora , pero Google no se quiere quedar atrás y es por ello que presentó Gemini 1.5 Pro, un modelo con mayores capacidades de generación e interpretación de contenido.

Gemini 1.5 Pro es una variante de uso general para los usuarios. Por lo tanto, tiene la capacidad de habilitar las funciones del chatbot Gemini, antes conocido como Bard, el cual ya tiene su propia aplicación para teléfonos móviles y funciones de asistente de voz.

Google afirma que se trata de un modelo multimodal (capaz de procesar texto, imágenes, videos o incluso código) de tamaño mediano, optimizado para escalar tareas al nivel similar que Gemini 1.0 Ultra, pero consumiendo menos recursos.

Entre los elementos más destacados de esta actualización es que llegará a una ventana de contexto de 1 millón de tokens, es decir, la IA de Google tendrá una cantidad mayor de insumos para cotejar información simultáneamente y comprender solicitudes más complejas, tomando en cuenta el contexto de la conversación.

La empresa señala que esta versión será capaz de procesar grandes cantidades de información en una sola solicitud, incluida una hora de video, 11 horas de audio, código con más de 30,000 líneas o más de 700,000 palabras. Según la empresa, esta es la ventana de contexto más grande que cualquier modelo hasta la fecha, aunque cabe resaltar que OpenAI también amplió la memoria de GPT recientemente.

Para entender la magnitud de las capacidades del modelo de Google GPT-4 Turbo ofrece una venta de contexto de 128,000 tokens. La versión 1.0 de Gemini Pro es de 32,000 tokens, mientras que Claude 2.1, de Anthropic, alcanza los 200,000 tokens.

¿Cuáles son las capacidades de Gemini 1.5 Pro?

De acuerdo con Google, la nueva versión de Gemini tiene la capacidad de:

Analizar con precisión una biblioteca de código completa en un solo mensaje, sin la necesidad de ajustar el modelo, incluida la comprensión y el razonamiento sobre pequeños detalles que un desarrollador podría pasar por alto fácilmente, como errores.
Razonar documentos muy extensos, desde comparar detalles de contratos hasta resumir y analizar temas y opiniones en informes de analistas, estudios de investigación o incluso una serie de libros.
Analizar y comparar contenido a lo largo de horas de video, como encontrar detalles específicos en imágenes deportivas u obtener información detallada de resúmenes de reuniones en video que respalden preguntas y respuestas precisas.
Permitir que los chatbots mantengan conversaciones largas sin olvidar detalles, incluso durante tareas complejas o muchas interacciones de seguimiento.
Habilitar experiencias hiper personalizadas incorporando información relevante del usuario en el mensaje, sin la complejidad de ajustar un modelo.

Respecto a la seguridad y privacidad de la información, Gemini 1.5 Pro seguirá los mismos lineamientos que habían usado para el desarrollo de las demás versiones y la empresa se comprometió a desarrollar más investigación en torno a las capacidades ampliadas de la IA a partir de su ventana de contexto más amplia.