El análisis de datos puede indicar qué internautas están embarazadas
Nota del editor: Matthew Lane es un candidato a Doctor en Matemáticas en la UCLA en Estados Unidos y fundador de Math Goes Pop! , un blog enfocado en la sorprendente rica intersección entre las matemáticas y la cultura popular. Puedes seguirlo en Twitter en @mmmaaatttttt .
(CNN) — Ya sea que estés tratando de tomar las mejores decisiones para tu liga de los sueños de beisbol, buscando sacar provecho de una oportunidad en un mercado bursátil fluctuante o simplemente filtrando los resultados de una búsqueda en Google, es difícil negar que estamos más rodeados por datos que nunca. Como tal, la tarea de organizar y sacar conclusiones de datos puede ser un reto, pero afortunadamente las matemáticas pueden, en muchos casos, ponerse a la altura.
La aplicación de las matemáticas a dicho consorcio de datos rápidamente creciente, sin embargo, no está exenta de controversia. Por ejemplo, en febrero The New York Times publicó una investigación escrita por Charles Duhigg sobre el valor de los datos del cliente para las grandes corporaciones, y cómo esas corporaciones pueden usar tus datos en una forma instintivamente espeluznante. La empresa en la que se enfoca es Target (de compras y promociones en línea) y su deseo de identificar a mujeres embarazadas basándose en sus hábitos de compra.
Target pudo haber tenido éxito en su meta. Como escribe Duhigg, el embarazo de una cliente adolescente en Minneapolis, Estados Unidos, fue descubierto porque le llegaron cupones a su casa. Su padre estaba molesto justificadamente al ver que Target ofrecía a su hija menor de edad descuentos en pañales y cunas, aunque quizá le molestó más descubrir que Target sabía más que él sobre la vida personal de su hija.
¿Cómo es posible para Target (o cualquier empresa, para el caso) sacar conclusiones tan precisas sobre los hábitos de compra de sus clientes ? Duhigg hace mención de que Target está haciendo alguna especie de magia matemática para asignar a cada cliente mujer una “puntuación de embarazo. En esencia, lo que estamos buscando es una forma de asignar una probabilidad a un resultado (por ejemplo, el embarazo) que es flexible, y puede cambiar a medida que conocemos más información (por ejemplo, hábitos de compras). Una forma de hacer esto es aplicar el Teorema de Bayes , un resultado poderoso que nos permite modificar la probabilidad de algunas hipótesis a medida que obtenemos más información.
Consideremos el teorema en el contexto de Target y el embarazo. Supón que Target conoce que en cualquier momento dado, aproximadamente el 2% de sus compradoras mujeres están embarazadas. Cierto producto, quizá es un tipo de loción, es particularmente popular entre las mujeres embarazadas. Este conocimiento está basado en el análisis del comportamiento pasado de los clientes . Target sabe que 8 de cada 100 mujeres embarazadas comprarán esta loción, mientras que sólo una de cada 100 mujeres que no están embarazadas la comprará. Si eres una mujer que compra esta loción, entonces esencialmente estás aumentando la posibilidad de que estés embarazada a los ojos de Target.
El Teorema de Bayes nos dice cómo computar explícitamente la probabilidad de que una mujer esté embarazada si compra ese producto, considerando el radio del número de mujeres que están embarazadas y compran la loción, y el número de mujeres que simplemente compran la loción (independientemente de que pueda estar embarazada).
Con las cifras presentadas en la parte superior, la posibilidad de que una mujer que compra la loción esté embarazada aumenta de un 2% a sólo un poco más de 14%; eso es un aumento de siete veces en la posibilidad, ¡y sólo de la compra de un solo producto! Aunque 14% no es un porcentaje particularmente alto, cuando estas probabilidades se combinan entre docenas de compras diferentes, de repente parece mucho más razonable que una tienda minorista pueda inferir con precisión acerca de un cliente con base en su historial de compras.
Desde un punto de vista matemático, el ejemplo de arriba no es diferente del de una mujer que se hace una prueba de embarazo. Comprar la loción es lo mismo que tener un resultado positivo en la prueba, mientras que no comprar la loción es lo mismo que obtener un resultado negativo en la prueba. La diferencia, por supuesto, es que cuando una mujer se hace una prueba de embarazo, está optando por hacer eso, y los resultados de la prueba serán tan confidenciales como ella quiera. No puede decirse lo mismo de una prueba de embarazo administrada sin su consentimiento a través de un análisis de lo que compra.
La moral aquí es que las matemáticas, como el poder de La Fuerza en Star Wars, pueden ser usadas para propósitos muy diferentes. Descubrir que tu hija está embarazada cuando te muestra el resultado positivo de una prueba es muy diferente a enterarte de que está embarazada por medio de una tienda minorista que le envía cupones para ropa de maternidad. Es natural sentirse incómodo al sólo pensar que grandes empresas tratan de inferir detalles personales sobre ti, pero no pienses en las matemáticas como el problema. En efecto, este ataque violento de datos también tiene muchas aplicaciones maravillosas (observa, por ejemplo, la búsqueda de un planeta parecido a la Tierra afuera de nuestro sistema solar).
Por el contrario, es el proceso de recolección de datos en sí lo que debe sorprendernos. Podría llevarte a comprar más a nivel local y pagar con efectivo. Por supuesto, tomar unas cuantas clases de matemáticas para tratar de entender mejor lo que estas empresas están haciendo tampoco te hará mal.