Publicidad

Síguenos en nuestras redes sociales:

Publicidad

OpenAI ya podrá clonar la voz, pero retrasa su lanzamiento

Voice Engine es un modelo que, con tan solo una muestra de audio de 15 segundos, puede replicar cualquier voz humana.
mar 02 abril 2024 08:00 AM
open-ai-voz
Voice Engine de OpenAI podrá replicar la voz humana.

OpenAI compartió que está trabajando en Voice Engine, un nuevo modelo que, con una muestra de audio de 15 segundos, puede replicar la voz para que se asemeje al hablante original. Pero, por el momento, solo está disponible para un pequeño grupo de socios. Esto porque reconocen que la tecnología causaría problemas si se difundiera ampliamente, por lo que están intentando resolver esos problemas con un conjunto de normas.

OpenAI prohíbe a los socios que están probando Voice Engine la suplantación de otra persona u organización sin consentimiento o derecho legal. Además, de acuerdo con sus términos, estos socios requieren consentimiento explícito e informado del hablante original y no permiten a los desarrolladores construir formas para que los usuarios individuales creen sus propias voces.

Los socios también deben divulgar claramente a su audiencia que las voces que están escuchando son generadas por IA. Finalmente, también implementaron un conjunto de medidas de seguridad, incluida la marca de agua para rastrear el origen de cualquier audio generado por Voice Engine, así como el monitoreo proactivo de cómo se está utilizando.

De acuerdo con la empresa, Voice Engine fue desarrollado por primera vez a finales de 2022 y ha sido utilizado para alimentar las voces predefinidas disponibles en la API de texto a voz, así como en ChatGPT Voice y Read Aloud.

Publicidad

Los riesgos de clonar la voz con IA

La IA en voz también representa grandes riesgos que las empresas deben buscar evitar. Entre algunos de los principales problemas destacan:

  1. Suplantación de identidad: La capacidad para replicar la voz de una persona podría utilizarse para suplantar su identidad en llamadas telefónicas, mensajes de voz u otros medios de comunicación, lo que podría llevar a estafas, fraudes o manipulaciones.
  2. Desinformación: La generación de voces sintéticas realistas podría utilizarse para crear contenido falso , como discursos políticos o noticias falsas, lo que podría propagar la desinformación y socavar la confianza en la información verídica.
  3. Manipulación emocional: Las voces clonadas podrían emplearse para manipular emocionalmente a las personas al imitar la voz de seres queridos o figuras de autoridad, lo que podría utilizarse en extorsiones emocionales o chantajes.
  4. Vulneración de la privacidad: Si las voces de las personas se pueden clonar fácilmente, podría existir el riesgo de que conversaciones privadas se graben y se utilicen sin consentimiento, lo que amenazaría la privacidad y la confidencialidad de las comunicaciones.
  5. Difamación: Las voces sintéticas podrían utilizarse para crear contenido difamatorio o injurioso en nombre de alguien, lo que podría dañar su reputación o causar conflictos personales o profesionales.
  6. Inseguridad en sistemas de autenticación de voz: Si las voces pueden ser fácilmente clonadas, los sistemas de autenticación de voz podrían volverse vulnerables a la suplantación, lo que comprometería la seguridad de sistemas sensibles como sistemas bancarios o de seguridad.

Beneficios de la clonación de voz con IA

Pese a estos riesgos, OpenAI sostiene que este modelo tiene múltiples beneficios, entre los cuales destaca:

  1. Proporcionar asistencia de lectura a no lectores y niños: a través de voces emotivas y naturales que representan una gama más amplia de hablantes que lo que es posible con voces predefinidas.
  2. Traducción de contenido: como videos y podcasts, para que los creadores y empresas puedan llegar a más personas en todo el mundo, de manera fluida y en sus propias voces.
  3. Alcanzar comunidades globales: mejorando la prestación de servicios esenciales en entornos remotos. Por ejemplo, la ONG Dimagi está construyendo herramientas para trabajadores de la salud comunitarios para proporcionar una variedad de servicios esenciales, como asesoramiento para madres lactantes. Para ayudar a estos trabajadores a desarrollar sus habilidades, Dimagi utiliza Voice Engine y GPT-4 para dar retroalimentación interactiva en el idioma principal de cada trabajador, incluido el suajili o idiomas más informales como el Sheng, un idioma mezclado popular en Kenia.
  4. Apoyar a personas que son no verbales: como aplicaciones terapéuticas para individuos con condiciones que afectan el habla y mejoras educativas para aquellos con necesidades de aprendizaje..
  5. Ayudar a los pacientes a recuperar su voz: para aquellos que sufren de condiciones de habla súbitas o degenerativas. El Instituto de Neurociencias Norman Prince en Lifespan, un sistema de salud sin fines de lucro que sirve como afiliado de enseñanza primaria de la escuela de medicina de la Universidad Brown, está explorando usos de la IA en contextos clínicos.
Publicidad
¿Quieres enterarte de lo más reciente de la tecnología?
Entrevistas, noticias y reseñas sobre los últimos gadgets e innovaciones.

¡Falta un paso! Ve a tu email y confirma tu suscripción (recuerda revisar también en spam)

Ha ocurrido un error, por favor inténtalo más tarde.

Publicidad