Publicidad

Síguenos en nuestras redes sociales:

Publicidad

¿Por qué Siri podría cambiar tu vida?

Apple no sólo ofrece al usuario un sistema de reconocimiento de voz, sino el poder de dar órdenes; Siri podría abrir la puerta a una era en la que todas las máquinas comprendan una voz de mando.
jue 08 diciembre 2011 06:00 AM
El asistente personal Siri, le permite al usuario hablarle al teléfono, redactar mensajes de texto y agendar citas. (Foto: Cortesía Apple)
siri 3 (Foto: Cortesía Apple)

Con la llegada de Siri -el asistente personal virtual de Apple- en octubre 2011, concluye la búsqueda por crear un exitoso sistema de reconocimiento de voz, pero se abre la puerta a una nueva era en la que habría un cambio en la manera en que los usuarios interactúa n no sólo con sus móviles sino con las computadoras: todas obedecerían nuestras órdenes.

El reconocimiento de voz no es nada nuevo y por eso el precedente tecnológico que Siri asienta es que las máquinas entiendan una voz de orden.

La idea de comunicarnos con máquinas por medio de la voz siempre ha estado presente en el humano. Sin embargo, convertir este sueño en realidad ha tomado más de medio siglo de esfuerzo a gigantes como Microsoft y Apple.

Juan Arturo Nolazco, investigador en reconocimiento de voz del Tec de Monterrey , cuenta que hace más de 50 años científicos decidieron abordar una tarea que sonaba sencilla: convertir el audio de la voz humana en texto, pero se encontraron con que ésta integra tonalidades que dificultan la labor del programa de reconocimiento de voz.

"Una palabra es sencilla de convertir a texto, pero una frase es una labor casi imposible", apunta Nolazco.

Posteriormente, se usó una técnica llamada 'análisis estocástico', que comparaba una palabra con un banco de datos para calcular estadísticamente su significado. Sin embargo, este sistema sólo funcionaba en laboratorios debido al enorme poder de cómputo requerido para hacer el procesamiento de voz.

Publicidad

En los años 90 aparecieron las primeras aplicaciones de reconocimiento de voz a cargo de la empresa Nuance, bajo la marca Dragon, que funcionaba en computadoras personales en las que se logró tomar dictados y hacer trascripción de documentos, explica William Meisel, presidente de TMA Associates.

Por su parte, Apple y Microsoft desarrollaban, de manera independiente, sistemas en reconocimiento de voz, especialmente para facilitarles el uso de sus computadoras a personas con discapacidad.

Dos tecnologías: una idea 

Fue hasta el siglo XXI cuando dos tecnologías facilitaron el reconocimiento de voz: la popularización del cómputo en la nube (procesamiento de datos en instalaciones remotas) y la masificación en los servicios de datos en dispositivos portátiles.

Para 2009, el sistema operativo de celulares Android (creado por Google) incorporó capacidades de reconocimiento de voz y, un año más tarde, su servicio Google Voice (similar al servicio de telefonía por internet Skype) habilitó la traducción de correos de voz a texto.

Apple, en tanto, preparaba un servicio similar tras adquirir en 2010 la empresa Siri.

Hoy, además del reconocimiento de voz, es necesaria su conversión en órdenes para la computadora. Es aquí donde Apple, a través de su iPhone 4S y Siri permitió al usuario hablarle al teléfono, redactar mensajes de texto SMS y agendar citas.

De acuerdo con Meisel, "en lugar de cargar al móvil el intensivo procesamiento de la voz, se hace en un centro remoto de datos que sólo devuelve la respuesta". Y es ahí donde está la magia del dispositivo de Apple.

"El cómputo en la nube extenderá la comprensión del habla en aplicaciones habilitando su reconocimiento", afirma Meisel.

¿Cómo funciona Siri?
El asistente personal Siri es un sistema de reconocimiento y comprensión de voz destinado a fungir como un asistente personal.

  1. El usuario activa Siri presionando el botón principal del iPhone.
  2. El usuario dicta una orden.
  3. El iPhone graba la orden y envía el archivo de voz (junto con información como la ubicación del teléfono y la identidad del usuario) por conexión de datos a un centro de cómputo de la empresa.
  4. En el centro de cómputo cada palabra es contrastada con la base de datos de Apple para traducirla en órdenes.
  5. Las órdenes son devueltas al iPhone , que despliega en pantalla o por su altoparlante expone la respuesta.

Newsletter

Únete a nuestra comunidad. Te mandaremos una selección de nuestras historias.

Publicidad

Publicidad