Estos números reflejan una creciente demanda por herramientas de creación de video con inteligencia artificial a nivel profesional y con capacidad de escalar y para responder a esa demanda, Google Cloud anunció tres novedades para Veo 3 en Vertex AI:
Una es que el modelo Veo 3 ya está disponible para todos los clientes de Google Cloud vía Vertex AI. La segunda es el lanzamiento de Veo 3 Fast, un modelo optimizado para la velocidad y la iteración rápida, el cual también está disponible desde ahora para todos los clientes de Google Cloud Vertex AI. Esto permitirá transformar texto a video de manera más ágil, desde demos de productos narrados hasta cortometrajes.
Por último, Google dio a conocer una nueva función de imagen a video habilitada en conjunto por Veo 3 y Veo 3 Fast, las cuales ofrecerán capacidades de imagen a video en en fase de prueba privada, con la finalidad de animar imágenes estáticas a través de una fotografía de origen y un comando de texto que describa el movimiento deseado.
Estas herramientas ya tienen usos reales dentro de otras herramientas, como la plataforma de inversión eToro, donde sus equipos de marketing la usan para mejorar su publicidad o en la aplicación de diseño, Canva, donde todas las personas pueden acceder a ella y mejorar sus narrativas.
La evolución de la creación de videos con IA
Estas actualizaciones de Veo 3 marcan una importante evolución en el mundo de las imágenes hechas a través de IA, una industria que avanza vertiginosamente y ahora se encuentra en una tercera etapa, de acuerdo con Mirage Studio , una empresa dedicada a la creación de videos a través de esta tecnología.
Según la categorización que propone esta compañía, en la primera etapa de los videos hechos con IA se necesitaba grabar el metraje base, generalmente con un doble de cuerpo para imitar los movimientos y la voz de la persona imitada. Luego, se superponía un rostro generado por IA, de modo que la expresión y el movimiento de los labios se reflejaran entre el imitador original y el rostro generado.
Con este modelo, no se puede cambiar lo que se dice en el vídeo, pero es realista porque la mayor parte del video es real. Cuando se hacen deepfakes de esta forma son difíciles de detectar, pues la única pista es si el cuerpo de la persona suplantada (como su postura, gestos o proporciones) no concuerda con su apariencia real.
La segunda generación de las imágenes hechas con IA usa técnicas de sincronización labial y recreación facial basadas para mapear cualquier pista de audio al rostro de una persona real o generada. Esto significa que un video existente de una persona real (o un video generado por IA) puede modificarse para que hable convincentemente en sincronía con un diálogo completamente nuevo.
Este es el proceso es más rápido y económico que cualquier método anterior, lo que ha impulsado su adopción generalizada. Actualmente, se estima que entre 65 y 75 proveedores ofrecen herramientas de sincronización labial, muchos con moderación de contenido mínima o nula.
Por otra parte, herramientas como Veo 3 se encuentran en la tercera generación de videos hechos con IA. Estos productos se caracterizan por su capacidad de generar personas de la nada (rostro, cuerpo, voz, fondo e incluso movimiento de cámara) sin depender de material preexistente.
Un elemento relevante de estos modelos, es que no pueden generar clips de más de unos pocos segundos (generalmente 4, 6, 8, 12), por lo que los clips suelen tener alrededor de esta longitud o deben unirse para simular momentos más largos.
Hasta el momento, ningún modelo logró alcanzar la cuarta generación, que es un estrato donde los videos tienen personas (reales o sintéticas) en cualquier situación, sin límite de duración (más de 12 segundos) y con varios elementos en una sola toma. O sea estos modelos podrán producir vídeos extensos y complejos con mayor realismo que cualquier otro medio sintético anterior.