Publicidad

Síguenos en nuestras redes sociales:

Publicidad

La voz, el nuevo mando

Luego de medio siglo de intentos infructuosos, el reconocimiento de voz está por acercarse a la realidad en diversos ámbitos.
lun 21 noviembre 2011 04:40 PM

Desde la película 2001: Odisea del espacio (1968), pasando por caricaturas como Los Supersónicos, la idea de comunicarnos con máquinas por medio de la voz siempre ha estado presente. Sin embargo, convertir este sueño en realidad ha tomado más de medio siglo de esfuerzo a gigantes como Microsoft y Apple.

Juan Arturo Nolazco, investigador en reconocimiento de voz del Tec de Monterrey, cuenta que hace más de 50 años científicos decidieron abordar una tarea que sonaba sencilla: convertir el audio de la voz humana en texto, pero se encontraron con que ésta integra  tonalidades que dificultan la labor del programa de reconocimiento de voz.

"Una palabra es sencilla de convertir a texto, pero una frase es una labor casi imposible", apunta el experto.

Ahora, para resolver el problema se usa una técnica llamada "análisis estocástico", que compara una palabra con un banco de datos para calcular estadísticamente su significado. Sin embargo, hasta hace poco estos sistemas sólo funcionaban en laboratorios debido al enorme poder de cómputo requerido para hacer el procesamiento de voz.

En la década de los 90 aparecieron las primeras aplicaciones de reconocimiento de voz. William Meisel, presidente de TMA Associates (consultora en reconocimiento de voz), señala que, en aquella época, surgió una empresa llamada Nuance que comenzó a lanzar programas de reconocimiento de voz bajo la marca Dragon y que funcionaba en computadoras personales.

Según Meisel, el sistema Dragon fue usado para toma de dictado y transcripción de documentos, mientras que Apple y Microsoft desarrollaron, de manera independiente, sistemas en reconocimiento de voz, especialmente para facilitarles el uso de sus computadoras a personas con discapacidad.

Publicidad

Una vez llegado el siglo XXI, dos tecnologías facilitaron el reconocimiento de voz: la popularización del cómputo en la nube (procesamiento de datos en instalaciones remotas) y la masificación en los servicios de datos en dispositivos portátiles.

Para 2009, el sistema operativo de celulares Android (creado por Google) incorporó capacidades de reconocimiento de voz y, un año más tarde, su servicio Google Voice (similar al servicio de telefonía por internet Skype) habilitó la traducción de correos de voz a texto. Apple, en tanto, preparaba un servicio similar tras adquirir en 2010 la empresa Siri.

Hoy, además del reconocimiento de voz, es necesaria su conversión en órdenes para la computadora. Es aquí donde Apple hizo su aparición, a principios de octubre, con el lanzamiento del iPhone 4S, que contiene un servicio llamado Siri que le permite al usuario hablarle al teléfono, redactar mensajes de texto SMS y agendar citas. De acuerdo con Meisel, "en lugar de cargar al móvil el intensivo procesamiento de la voz, se hace en un centro remoto de datos que sólo devuelve la respuesta". Y es ahí donde está la magia.

¿Podremos tener un mundo donde las computadoras obedezcan nuestras órdenes? Según Meisel, "el cómputo en la nube extenderá la comprensión del habla en aplicaciones habilitando su reconocimiento".

Así, pronto los humanos recuperaremos nuestra voz de mando.

¿CÓMO FUNCIONA SIRI?
El asistente personal Siri es un sistema de reconocimiento y comprensión de voz destinado a fungir como un asistente personal.
• El usuario activa Siri presionando el botón principal del iPhone.
• El usuario dicta una orden.
• El iPhone graba la orden y envía el archivo de voz (junto con información como la ubicación del teléfono y la identidad del usuario) por conexión de datos a un centro de cómputo de la empresa.
• En el centro de cómputo cada palabra es contrastada con la base de datos de Apple para traducirla en órdenes.
• Las órdenes son devueltas al iPhone, que despliega en pantalla o por su altoparlante expone la respuesta.

Newsletter

Únete a nuestra comunidad. Te mandaremos una selección de nuestras historias.

Publicidad

Publicidad