Tecnología

La startup Kyutai le gana a OpenAI en lanzamiento de tecnología

La compañía francesa lanzó Moshi, un sistema de IA multimodal capaz de responder en voz o video en tiempo real.

vie 05 julio 2024 10:00 AM

Moshi, el nuevo sistema de IA multimodal — Este nuevo sistema es capaz de dar respuestas en menos de 200 milisegundos. (Foto: Kyutai)

Expansión

En la carrera de la Inteligencia Artificial generativa no sólo figuran empresas como OpenAI, Google o Microsoft. Con el tiempo surgen más propuestas con menos reflectores, pero con propuestas tan interesantes como los actores más populares. Un ejemplo es Kyutai, una startup francesa que acaba de lanzar un asistente multimodal similar al que OpenAI prometió, pero tuvo que atrasar.

¿En qué consiste Moshi, el asistete de Kyutai?

Esta semana, Kyutai lanzó Moshi, un sistema de IA generativa con la capacidad de tener conversaciones en tiempo real con los usuarios a través de diferentes tipos de insumos, como texto, voz o imágenes, ya sean en movimiento o estáticas.

De acuerdo con el anuncio de la empresa, Moshi es capaz de expresar 70 emociones y estilos diferentes, además de que procesa las preguntas y genera sus respuestas de forma simultánea, lo cual le permite contestar en un lapso de 200 milisegundos.

“Piensa mientras habla”, comentó el director ejecutivo de Kyutai, Patrick Pérez. “Creemos que Moshi tiene un potencial enorme para cambiar la forma en que nos comunicamos con las máquinas y a través de ellas”.

Su tecnología está basada en Helium, un modelo de lenguaje de 7,000 millones de parámetros y fue entrenado con 100,000 conversaciones sintéticas. Además, se puede ejecutar en una computadora común, por lo que es acesible para la mayor parte de los usuarios.

Cabe resaltar que Moshi es un modelo más pequeño que GPT-4o, se puede instalar localmente y ejecutar sin conexión. Si bien esto puede parecer una desventaja, en realidad lo haría perfecto para actuar en electrodomésticos inteligentes y así mejorar su capacida de respuesta.

Otros puntos relevantes en su desarrollo es que se tratará de un sistema open source, pues la compañía liberará el código fuente del modelo para refinar las versiones futuras del sistema a partir de la retroalimentación que den los usuarios.

Asimismo, en un ejercicio de transparencia, dijo que para equilibrar la innovación y la seguridad de sus creaciones van a incorporar “marcas de agua” en todas sus respuestas con las cuales se indique que el contenido fue generado por una IA, con la finalidad de abordar las preocupaciones éticas.

¿Quién está detrás de Kyutai?

El lanzamiento de Moshi es relevante, debido a que se adelantó a los esfuerzos que OpenAI estaba motivando a través de GPT-4o, que prometía ser el primer sistema multimodal del mercado. Sin embargo, tan sólo unas semanas se retraso su lanzamiento hasta otoño, según los anuncios de la empresa.

Entre las razones por las que decidieron posponer la publicación del sistema se encuentra la polémica con la actriz Scarlett Johansson, quien acusó a la empresa por haber utilizado una voz similar a la suya, después de rechazar las ofertas por ser la voz oficial del asistente.

Moshi es “el primer asistente de IA de voz en tiempo real disponible al público”, dijo el CEO de la compañía, la cual es una de las startups más importantes de Europa, debido al respaldo financiero con el que cuenta, ya que en noviembre recibió una financiación de 324 millones de dólares.

Entre algunos de los inversionistas más importantes se encuentran Eric Schmidt, expresidente ejecutivo de Google; Hervé Jégou, antiguo miembro de Google DeepMind y Meta y actualmente director científico de Kyutai; el multimillonario Radolphe Saadé; así como el fundador de la telco Iliad, Xavier Niel.