Todos trabajamos para Internet

Una aplicación permite que los internautas digitalicen viejos archivos sin darse cuenta de ello cualquier cibernauta ha servido como escáner humano cuando llena una forma en línea.
200 libros se digitalizan en un día al resolver 100 millones  (Foto: )
Miriam Martínez R.

Los visitantes a millones de sitios de internet que descifran garabatos digitales y anotan en espacios en blanco lo que ven en ellos son parte de un sofisticado sistema en el que ayudan a digitalizar viejos artículos o tomos de libros... sin darse cuenta de ello.

Según la agencia Bloomberg, firmas como New York Times Co y Facebook están sacando ventaja de millones de usuarios de internet en todo el mundo, como mano de obra involuntaria, para convertir en formatos digitales miles de textos impresos mucho antes de la aparición de las computadoras.

En realidad, casi cualquier usuario de internet ha servido como escáner humano cuando llena una forma en línea que, como parte de un procedimiento de suscripción o verificación, pide transcribir lo que una palabra borrosa o distorsionada dice.

De acuerdo con los responsables de CAPTCHA, un proyecto de la Universidad de Carnegie Mellon, en Pittsburgh, cada día se resuelven unos 100 millones de estos garabatos, que contribuyen a digitalizar 200 libros, en promedio.

Según los responsables, CAPTCHA (acrónimo que quiere decir: prueba de Turing completamente automatizada para distinguir a los humanos de las computadoras) es un programa que puede determinar exactamente si un usuario es un humano o una computadora. Su primer uso fue para detener los envíos masivos de spam, basados en envíos automatizados por sistemas que no pueden navegar en sitios que están protegidos por un programa CAPTCHA.

“Ningún programa puede leer textos distorsionados como lo hace el ojo humano, y escribir lo que dicen”, explica Luis von Ahn, de Carnegie Mellon.

Dice que sólo le toma unos segundos a cada usuario resolver esas peticiones de transcripción, que, a su vez, sirven para autentificar su identidad y evitar que los programas de spam hagan de las suyas.

Al contabilizar los ‘esfuerzos’ diarios de millones de internautas, los investigadores calculan que los programas CAPTCHA ahorran a los sitios unas 150,000 horas-hombre a la semana, es decir, una fuerza equivalente a más de 5,000 empleados dedicados a transcribir textos. En la Edad Media, un monje copiaba un texto por mes, en promedio.

Ahora, algunos tomos que no han podido digitalizarse podrían tener un alcance universal gracias a la tecnología y al ojo humano.

Antes, explica Von Ahn, se usaban palabras al azar como formato del texto que un usuario tenía que transcribir. Sin embargo, en su equipo se les ocurrió sacar un provecho al ubicar palabras que los escáneres y demás hardware de lectura óptica no puedan leer.

Así surge CAPTCHA, una aplicación que la Universidad de Carnegie Mellon ofrece gratis. Los textos que digitaliza a menudo están maltratados por el tiempo y la humedad, la tinta se ha borrado o el papel se ha deteriorado.

“Ideamos un sistema que funciona casi perfectamente”, dice Von Ahn. Como su programa se puede bajar de muchos lugares, los creadores no tienen una idea clara de cuántos sitios lo utilizan, pero saben que su aplicación funciona en más de 200 idiomas.

El equipo de CAPTCHA ya completó la digitalización de todo el archivo de The New York Times desde 1908 y hay convenios entre sitios con muchísimo tráfico que le piden a sus usuarios registrarse con ese tipo de códigos de seguridad todo el tiempo.

En México, Pedro Ángeles, coordinador de la Fototeca del Instituto de Investigaciones Estéticas de la UNAM, señala que este tipo de programas puede ayudar a rescatar los pies de fotos o leyendas anotadas en archivos históricos sin maltratar los originales. “Sólo tendríamos que escanearlas, armar una base de datos con las palabras ilegibles y subirlas a redes en convenio para cuidar nuestros acervos y tenerlos actualizados”, dice.

Así que la próxima vez que uno genere una nueva cuenta de correo electrónico, o se le pida demostrar que es quien dice ser, o compre boletos para conciertos y transcriba un garabato, estará poniendo su infinitésimo grano de arena en la conformación digital de algún texto impreso.

Con información de Bloomberg

Ahora ve
No te pierdas