Publicidad
Revista Digital
Publicidad

Editar videos ya es tan fácil como chatear: así funciona Gemini Omni el nuevo modelo de IA de Google

Te enseñamos cómo usar Gemini Omni, qué puede hacer y dónde probar el nuevo modelo todo en uno de la compañía.
google-gemini-omni-que-es-y-como-funciona
Google apuesta por una edición de video más simple con Gemini Omni, un modelo capaz de entender texto, audio, imágenes y video al mismo tiempo. (EvgeniyShkolenko/Getty Images)

Editar un video solía requerir software especializado, tiempo y, en muchos casos, conocimientos técnicos. Google acaba de cambiar esa ecuación. Gemini Omni es un nuevo modelo de inteligencia artificial que permite crear y editar videos usando únicamente lenguaje natural: le escribes lo que quieres cambiar, y el modelo lo hace.

Pero Omni no es solo un editor de video con IA. Es el primer modelo de Google capaz de recibir cualquier tipo de entrada —imagen, audio, video o texto— y generar un resultado coherente a partir de esa combinación.

Publicidad

Qué puede hacer Omni que otros modelos no podían

Antes de Omni, los modelos de generación de video de Google —entre ellos Veo— requerían instrucciones muy precisas para funcionar bien. Se describía cada detalle: el ángulo de la cámara, la iluminación, el movimiento, el ambiente. Omni elimina esa carga.

De acuerdo con la guía técnica publicada por Google DeepMind , con Omni no es necesario ser tan específico en el prompt porque el modelo razona sobre lo que debería suceder y llena los detalles usando su propio conocimiento del mundo: historia, ciencia, física, cultura. Le puedes decir "explica visualmente la diferencia entre computación clásica y computación cuántica" sin describir cómo debería verse cada escena. Omni lo deduce.

google-omni-2.png
(Google DeepMind)

A eso se suma otra capacidad clave: la memoria de contexto. Cuando editas un video, el modelo recuerda lo que ya hiciste. Los personajes mantienen coherencia visual entre instrucciones.

Cómo se edita un video con lenguaje natural

El flujo de trabajo funciona como una conversación. Subes tu video —o partes desde uno generado por el modelo— y empiezas a dar instrucciones en texto. Cada instrucción se construye sobre la anterior.

Google DeepMind documenta varios tipos de edición que el modelo entiende de forma nativa:

Cambios de elementos específicos. Puedes pedirle que transforme un objeto en particular sin alterar el resto del video. En los ejemplos de la guía oficial, una instrucción como "cambia la mariposa por una abeja" modifica ese elemento y preserva todo lo demás. Una instrucción posterior —"convierte la abeja en un pequeño enjambre de luciérnagas"— toma el resultado anterior como punto de partida.

google-omni.png
(Google DeepMind)

Control de cámara. Omni entiende terminología cinematográfica real. Puedes pedirle ángulos específicos como "static", "locked off" o "fixed". Puedes indicar movimientos como "push in", "dolly zoom" o "punch in". También puedes definir el estilo de cámara: "natural smartphone zoom", "film camera" o "webcam style". No necesitas saber qué significa cada término para usarlo —puedes experimentar— pero el modelo los ejecuta con precisión técnica.

Publicidad
google-omni-control-camara.png
(Google DeepMind)

Sincronización de entradas múltiples. En lugar de trabajar solo con video, puedes combinar referencias. Un prompt documentado en la guía de Google DeepMind usa un video de entrada, una imagen de referencia y un archivo de audio simultáneamente: "Los pájaros del video forman vagamente la silueta de un pájaro basada en la imagen, sincronizados con el audio." Omni integra las tres fuentes en un resultado coherente.

google-omni-3.png
(Google DeepMind)

Cambios de estilo visual completo. Si quieres mantener el movimiento original de un video pero cambiar completamente cómo se ve, Omni puede aplicar estilos como anime, claymation o acuarela sobre el material existente sin alterar la acción.

google-omni-4.png
(Google DeepMind)

Generación desde storyboard. Si ya tienes clara la narrativa, puedes subir imágenes que funcionen como storyboard y Omni genera el video siguiendo ese orden visual, imagen por imagen.

Cómo escribir un buen prompt para Omni

La guía técnica de Google DeepMind establece que mientras más detalle incluya el prompt, mayor control tendrá el usuario sobre el resultado. Hay cinco elementos que el modelo procesa y que conviene especificar cuando se quiere mayor precisión:

Encuadre y movimiento de cámara. ¿Gran angular, plano medio o primer plano? ¿La cámara se desliza suavemente o se mueve con brusquedad? Especificarlo da resultados más cercanos a lo que se busca.

Publicidad

Estilo. ¿La escena debe verse realista o cinematográfica? ¿Íntima o grandiosa? Describir el efecto que se quiere lograr —no solo el tema— orienta al modelo hacia el tono correcto.

Iluminación. ¿De dónde viene la luz? ¿Es luz solar, una farola, iluminación fuera de cuadro? ¿El resultado debe verse nítido, cálido o etéreo? La iluminación define el ambiente más que cualquier otro elemento.

Locación. Describir el espacio donde transcurre la escena. No hace falta detallar cada elemento; con describir el ambiente general —"un paisaje alienígena con agua azul clara"— el modelo construye el resto.

Acción. Qué está pasando, quiénes son los personajes u objetos y cómo se mueven e interactúan entre sí.

Quién puede usarlo y dónde está disponible

Gemini Omni Flash —el primer modelo de la familia Omni— está disponible en México a través de tres vías, con condiciones distintas según la plataforma:

YouTube Shorts y la app YouTube Create: acceso sin costo para todos los usuarios. Es la forma más directa de probar el modelo sin ningún tipo de suscripción.

App de Gemini y Google Flow: disponible para suscriptores de Google AI Pro y Ultra. Estas son las versiones de pago de los planes de Google, lo que significa que no está disponible de forma gratuita en estas plataformas.

APIs para desarrolladores y clientes empresariales: disponible en las próximas semanas, según el anuncio oficial de Google.

La guía técnica de Google DeepMind advierte explícitamente que se requiere una suscripción de Google AI para algunas funciones, y que las capacidades disponibles varían según el plan y la región geográfica.

Todos los videos generados con Omni incluyen la marca de agua invisible SynthID —tecnología de Google para identificar contenido generado con IA— y pueden verificarse como creados con Gemini Omni desde la app de Gemini, Gemini en Chrome y la Búsqueda de Google.

Lo que viene después

Gemini Omni Flash es el primer modelo de la familia, no el único. Google ha anunciado que próximamente el modelo también podrá generar imágenes y audio como resultado —hoy solo produce video— y que ampliará los tipos de entrada de audio aceptados más allá de referencias de voz.

La función de avatar digital —que permite crear videos con la propia imagen y voz del usuario— ya está disponible de forma limitada. La edición de voz en video, en cambio, sigue en fase de pruebas: Google indica que está evaluando cómo ofrecer esa capacidad de forma responsable antes de lanzarla al público general.

La promesa central de Omni, según Koray Kavukcuoglu, director de tecnología de Google DeepMind, es la fusión entre el razonamiento de Gemini y su capacidad creativa. El modelo no solo ejecuta instrucciones: entiende qué debería pasar a continuación dentro de una escena, y lo construye desde ahí.

Newsletter

Únete a nuestra comunidad. Te mandaremos una selección de nuestras historias.

Publicidad

Publicidad