CIENCIA

BIG DATA: VOS NO, PERO YO TE CONOZCO

Por David Levitn

Estamos lejos de la rebelión de las máquinas, pero ya saben todo, absolutamente todo de nosotros.

 

En los tres años que van desde el 2014 hasta hoy, la humanidad creó tanta información (en términos de bytes de datos) como desde el principio de la historia escrita hasta el 2014, según un trabajo realizado por el doctor en comunicación Martin Hilbert. Toda esa información dice mucho sobre nosotros, tanto que da miedo. Con tantos likes, programas automatizados para aprender a reconocer patrones pueden saber tu edad, ocupación, preferencia sexual, hasta tu gusto de helado favorito. ¿Quién es el dueño de nuestros datos? ¿Qué tan espiados estamos? ¿Cuántos aspectos de nuestra sociedad pueden comprender y resolver con esos datos los algoritmos y las inteligencias artificiales? Y lo más importante para John y Sarah Connor: ¿Cuánto falta para que despierte Skynet?

Cada vez que hacemos clic, apretamos la pantalla del celular para revisar actualizaciones en Facebook o Twitter y enterarnos quién estuvo de vacaciones o qué cenó Calu Rivero anoche, queda registrado en algún servidor qué hicimos, dónde lo hicimos y a qué hora. La suma de todas las interacciones y datos que dejamos grabados en la nube se llama huella digital, y viene creciendo a un ritmo vertiginoso. Da un poco de miedo, por ejemplo, que por tener una cuenta Google asociada al celular, esa empresa sepa exactamente dónde estuviste cada minuto de los últimos años (entrando en google.com/maps/timeline).

La capacidad de guardar esa información y procesarla también crece muy rápidamente, duplicándose cada pocos años (eso es realmente lo que se llama un crecimiento exponencial). Un smartphone nuevo tiene una memoria y una velocidad de procesador un millón de veces mayores que las computadoras que guiaban las primeras misiones en el espacio en el programa Apollo. China, EEUU, Europa y Japón compiten para producir antes de 2020 la primer supercomputadora con una capacidad de un exaflop: flop es la cantidad de cálculos que realiza una máquina por segundo, y exa es un prefijo que quiere decir un 1 con dieciocho ceros detrás. Casualmente, o no tanto, se estima que esa es aproximadamente la capacidad de procesamiento del cerebro humano.

En el año 2009 apareció un test de personalidad en Facebook (la app MyPersonality) que te asignaba un arquetipo de acuerdo con el puntaje obtenido a través de una serie de preguntas. Había sido diseñada por Michal Kosinski, un estudiante en Cambridge, como una forma de recolectar datos para su proyecto de tesis en psicometría. Aunque la red social no era el mastodonte que es hoy, cientos de miles de personas se coparon a completar el formulario y le otorgaron la base de datos de personalidad más grande y completa elaborada hasta ese momento. Fue un quiebre para la psicometría, un momento fundacional para el Big Data y contribuyó también al nacimiento de Cambridge Analytica, empresa especializada en campañas a través de redes sociales vinculada a la sorprendente victoria electoral de Donald Trump el año pasado. El equipo de The Donald contrató a esta empresa para minar la fabulosa cantidad de datos provista por los 230 millones de perfiles de Facebook (y todas las bases de datos digitales provistas por empresas) de adultos estadounidenses, generando 175.000 perfiles distintos de votantes a los cuales se les brindó publicidad especializada después de cada actividad de campaña del actual presidente de piel anaranjada. Así, los más preocupados por el empleo industrial recibían videos en donde Trump atacaba a las empresas con producción en el extranjero, mientras que los preocupados por la inseguridad veían defensas al derecho de portar armas. Incluso los potenciales votantes de Hillary Clinton recibían publicidad, pero en este caso para evitar que se tomen el trabajo de ir a votar: el director de la empresa, Richard Nix, cancherea contando que a un barrio de Miami con mayoría de población haitiana se le enviaban noticias sobre el mal manejo de la Fundación Clinton después del terremoto en Haití.

Todos nuestros datos se usan para que nos llegue publicidad altamente personalizada al costado de nuestro timeline. También sirven para orientar la aparición de nuevos productos: tanto House of Cards como más recientemente Stranger Things fueron pensadas a partir de las preferencias de los usuarios de Netflix, que se almacenan y analizan en sus servidores. Eso por ahora. Pero al aumentar enormemente la cantidad de datos y entrecruzamientos cambia cualitativamente la capacidad de obtener y estimar información futura, según explica Esteban Feuerstein, Dr. en informática y director de la Fundación Sadosky: Uno de los campos en la que la cantidad de datos le ganó al entendimiento tradicional fue la traducción automática. Al disponer de cientos de miles de libros simultáneamente en varios idiomas (a través de Google Books) el algoritmo a cargo del traductor automático pudo deducir estadísticamente la traducción más probable a partir del contexto, y mejorar con el tiempo a partir de las interacciones con los usuarios, que califican como buenas o malas las traducciones ofrecidas.

Los datos a los que acceden los algoritmos publicitarios pueden incluir desde tu historial de navegación hasta el contenido de cualquier correo electrónico o chat que hayas escrito a través de los proveedores de mails gratuitos, cuyo negocio principal está en la posesión y venta de esas bases de datos. Comenta Feuerstein: en la mayoria de los casos los sitios que visitás hurgan en tus datos y no te preguntan nada, las empresas y sitios más serios tal vez te hayan pedido que aceptes una serie larga de términos y condiciones en donde se explica lo que pueden hacer con tus datos. No son gratis: les estás dando información tuya a cambio del servicio.

Los programas de publicidad buscan ciertas correlaciones en las bases de datos indicadas por el programador y con este tipo de información se determina la pertinencia de un anuncio: una IP de Avellaneda y numerosas visitas al sitio infiernorojo.com sugieren que tiene poco sentido intentar venderte una camiseta de Racing. Algunas correlaciones son bastante sencillas, como en el ejemplo de más arriba, mientras que otras pueden ser bastante más difíciles de deducir: cruzando cientos de miles de datos de ventas la cadena Wal-Mart encontró que justo antes de un tornado, los clientes del midwest aumentaban sus compras de agua y elementos de primera necesidad, pero también liquidaban las existencias del snack Pop-tarts. Cualquier empresa ve el potencial que tiene sacarle el jugo al Big Data para aumentar sus ventas, pero con la cantidad monstruosa de datos y variables que hay, cruzarlos absolutamente todos entre sí puede ser estéril además de costoso. Ahí es donde entran los criterios de los programadores-sociólogos-publicistas para encontrar variables relevantes y, en forma incipiente, la capacidad de las propias máquinas de encontrarlas por sí mismas a través de lo que hace algunas décadas se llamaba inteligencia artificial y hoy se llama aprendizaje de máquina.

Un algoritmo tradicional (lineal) es una receta que sigue paso a paso. Si bien puede ser bastante complejo, se puede predecir el comportamiento del programa a partir de las instrucciones que recibe. Para otorgarle a un programa la capacidad de aprender y mejorarse a sí mismo, son necesarios dos elementos: establecer un sistema de retroalmientación positiva y negativa (o sea, una forma de decirle cuándo acertó y cuándo no), y darle al programa la posibilidad de modificar su propia estructura interna a partir de esas respuestas. Además, es necesario darle al programa un objetivo. Pero traducir un objetivo informal (decime a qué computadora le muestro mi nueva publicidad de perfume) en fórmulas y variables (optimizá la función X sujeta a las variables Y y Z) no es ni sencillo ni obvio ni está exento de riesgos: el programa puede interpretar como exitosas a estrategias que resultan un desastre por no tener en cuenta otros factores. En la película Terminator, la inteligencia sintética Skynet era parte de un proyecto de defensa creado para evaluar amenazas que al ser activado calculó que la humanidad entera era la principal amenaza a la paz mundial y resolvió que había que eliminarla.

Al modificarse a sí mismos, los algoritmos de aprendizaje de máquina entregan resultados a veces impredecibles (por ejemplo una estrategia novedosa para un juego milenario como el Go). Pero para llegar a resultados aceptables necesitan equivocarse una buena cantidad de veces. Cuando nos muestran a una ex en amigos que quizás conozcas, el algoritmo aprenderá, en base a la ignorancia que reciba, que esa opción no es para nosotros. En estos casos la retroalimentación se la estamos dando los humanos que interactuamos con el programa, lo que en la jerga se llama aprendizaje supervisado, la técnica históricamente más usada y predominante hoy.

El aprendizaje no supervisado está en pleno desarrollo: allí se deja que el mismo programa detecte cuáles son los puntos relevantes de un conjunto de datos. Un ejemplo de esto es TensorFlow, un programa de fuente abierta hecho por Google (y que usa para reconocimiento de voz, búsqueda de imágenes y hasta para proponerte respuestas automáticas a los mails) que ahora está disponible para usar y modificar.

Estamos lejos del momento en que las máquinas cobren conciencia propia y decidan conquistar el mundo. Mientras tanto, cada vez más tareas se automatizan y quedan bajo el control de las computadoras, lo cual también trae aparejados algunos problemas. Como advierte Esteban Magnani, especialista en tecnologías de la comunicación y autor del libro Tensión en la Red, los algoritmos son bilardistas, solo les importa alcanzar el resultado embebido en su código. Prueba y error: si fallan lo intentan de nuevo. Resultan ideales para las esferas también resultadistas del marketing o buena parte de la política. Pero no sirven para explicar los datos y entender sus causas y consecuencias. La tentación de creer que el Big Data va a solucionar todos los problemas sin mirar en forma crítica cómo se obtienen los datos puede llevar a mantener y reforzar las desigualdades de nuestra sociedad.