¿Somos conscientes de cómo y para qué se utilizan los datos?
Suministrar información y perder el control sobre ella es muy fácil, y ejercer el derecho a la privacidad, todo un desafío
Encontrar las causas de los sucesos ha sido siempre y es la tarea más complicada en cualquier análisis de toda disciplina (la economía, la medicina, el derecho, el periodismo, la sociología) y un asunto todavía lejos de ser alcanzado por la inteligencia artificial. La docencia de la estadística tampoco ha ayudado. En la enseñanza de la materia se insiste mucho en que a lo máximo que se puede aspirar es a encontrar correlaciones, pero no causalidades. De hecho, confundir una con otra se cataloga como una falacia lógica. El canto del gallo se correlaciona muy a menudo con el amanecer, pero no lo causa. ¿Qué es la causalidad?
Si observamos a una persona lanzar una piedra hacia una ventana, la causa, es posible predecir el efecto, que se rompa el cristal. Cuando la relación es directa es muy fácil evaluar, pero cuando es inversa todo se complica. Si nos encontramos con esa ventana rota, necesitamos mucha más información para encontrar la causa. Lo mismo ocurre con la inflación. Una vez que ha llegado a niveles preocupantes, contra todo pronóstico, la pregunta es: ¿cuál es su causa?
En los cargos de responsabilidad, la intuición, la experiencia personal y la anécdota han tenido mucho peso en las decisiones. Sin embargo, hoy en día la estadística y la ciencia social (llamadas ahora análisis de datos y ciencia del comportamiento, respectivamente) predominan en las principales instituciones sociales, empresariales, gubernamentales, educativas, deportivas y militares, entre otras, hasta el extremo de que se da por hecho que todos los problemas se pueden solucionar gracias a los macrodatos.
Sin embargo, la primera dificultad de cualquier análisis empieza cuando los datos disponibles o los supuestos de partida son inexactos. Como el matemático, científico de la inteligencia artificial y filósofo Judea Pearl asegura, “los datos carecen de toda inteligencia. Hay muchas situaciones en las que los datos no son suficientes. De hecho, las personas son más inteligentes que los datos, porque mientras que estos no comprenden las causas y los efectos de los acontecimientos, las personas sí”.
Para saber qué van a hacer los clientes, las empresas pueden recurrir a la fórmula del teorema de Bayes, que permite poner cifras a esos procesos de razonamiento. Se utiliza para calcular la probabilidad de un suceso teniendo información de antemano sobre otro hecho relacionado con él, como hace la inteligencia artificial. En función de los datos disponibles, es posible hallar el porcentaje de probabilidades de un determinado evento.
A riesgo de abusar de algunos tecnicismos, es más práctico ver con un ejemplo cómo se aplica esa fórmula a los data que todos facilitamos de manera continua y altruista: supongamos que conocemos a los clientes de una cafetería y tenemos los detalles de sus preferencias. Sabemos que dos tercios de los que acuden al local piden café, y la mitad de estos también piden galletas. El jefe pregunta: ¿qué fracción de clientes pide café con galletas? Puesto que la mitad de dos tercios es un tercio, entonces un 33% pide café y también galletas. Este es el camino fácil y directo.
Imaginemos ahora que tenemos 12 clientes y queremos analizar los datos en orden inverso: cinco doceavos de los clientes pidieron galletas y, de ellos, cuatro quintos pidieron café, es decir: (4/5) x (5/12), igual a un tercio. En términos de probabilidad, la regla dice que P(C) es la probabilidad de que alguien pida café y P(G) es la probabilidad de que pida galletas. Si sabemos que alguien quiere galletas al pedir un café, deberíamos ser capaces de averiguar la probabilidad de que quiera café si ha pedido galletas. De esta forma, si la mitad de los que pidieron café (50%) también quisieron galletas, y dos tercios (66%) querían café, y cinco doceavos (41%) querían galletas, si el jefe pregunta: ¿qué proporción de los que quisieron galletas pidieron café?, al aplicar la probabilidad inversa (por si resulta útil, su fórmula es: P(G/C) P(C ) es igual a P(C/G) P (G)), el resultado sería cuatro quintos (80%); es decir, 8 de cada 10 que pidieron galletas quisieron también café.
Se puede estimar así que la probabilidad, a priori, de que el cliente quiera un café como primera petición es de dos tercios (un 66%). Ahora bien, si pide galletas, nos da una información que antes no teníamos, de manera que, con ese nuevo dato, la probabilidad actualizada de que quiera un café, teniendo en cuenta que ha pedido galletas, es de cuatro quintos (un 80%); o bien que ocho de cada diez veces pedirá galletas y las acompañará de café.
Como una gran parte de las creencias humanas sobre lo que ocurrirá en el futuro se basa en la frecuencia con la que unos hechos u otros similares han sucedido en el pasado, cuando un cliente entra en el establecimiento, el empleado piensa que probablemente quiera un café, pero si primero pide galletas, le parecerá aún más probable. Incluso podría sugerirle combinar ambas cosas.
En muchos lugares, los empleados, que conocen a sus clientes, se adelantan a sus peticiones sin hacer tantos cálculos, pero cuando los negocios ganan en volumen y aumenta la información, los cálculos son más complejos. Imagine una empresa de moda que quiera saber, por ejemplo, cuántos de los clientes que compran chaquetas adquieren también camisas, y qué influencia tiene el precio en sus decisiones. Cuanta más información se reúna, más fácil resultará aplicar esa fórmula de la probabilidad inversa, actualizarla, sistematizarla y convertirla en definitiva en un algoritmo para orientar las decisiones.
Pero si vamos un paso más allá y preguntamos cuál es la causa que lleva a tomar esa decisión, a los expertos les costará responder, y generalmente no les preocupará; les bastará el hecho de que existe una correlación. Sin embargo, la causalidad es fundamental para aprender de los efectos de las decisiones y poder progresar, y eso requiere de otras técnicas de análisis. Como dice Pearl: “Las probabilidades codifican las creencias de las personas sobre un mundo estático y, en cambio, la causalidad indica si las probabilidades cambian y cómo lo hacen cuando el mundo cambia, ya sea por una intervención directa de una persona o por un acto imaginario de una o varias personas”.
En esta era datocéntrica, suministrar datos y perder el control de esa información es muy fácil, y ejercer el derecho a la privacidad es todo un desafío; por eso, la inteligencia artificial asusta incluso a sus promotores, aunque probablemente nunca alcance a entender las causas, ni le importen.
Carlos Balado es profesor de OBS Business School y director de Eurocofín
Sigue toda la información de Cinco Días en Facebook, X y Linkedin, o en nuestra newsletter Agenda de Cinco Días