Es noticia
¿Malditas mentiras? Sorprendentes aplicaciones reales de la estadística
  1. Economía
  2. El Análisis de Sintetia
El Análisis de Sintetia

El Análisis de Sintetia

Por

¿Malditas mentiras? Sorprendentes aplicaciones reales de la estadística

Pocas frases históricas han sido tan malinterpretadas como el clásico de Mark Twain: “Existen tres tipos de mentiras: las mentiras, las malditas mentiras y las estadísticas”.

Pocas frases históricas han sido tan malinterpretadas como el clásico de Mark Twain: “Existen tres tipos de mentiras: las mentiras, las malditas mentiras y las estadísticas”. El sentido original de la expresión aludía a lo fácil que puede ser engañar mediante la presentación maliciosa de datos, pero su sentido ha acabado afectando a la propia disciplina de la estadística. Y, paradójicamente, la estadística es la disciplina clave para evitar ser engañados burdamente con números. La frase de Mark Twain debería haber sido: “Existen tres tipos de formas de engañar: con mentiras, con malditas mentiras y con datos. Sólo el saber estadística te salvará de este último tipo de engaño”. La correcta interpretación de los datos y de la evidencia empírica es el principal motor del avance de la ciencia durante el S.XX, hasta el punto de que prácticamente ninguna disciplina científica puede avanzar ya sin su uso.

Pero la utilidad de la estadística va mucho más allá de la simple interpretación de la información. La estadística ha revolucionado la mayoría de campos que ha tocado, hasta el punto de que, a menudo, la mejor solución para muchos problemas… ¡es decidir en función del lanzamiento de una moneda al aire! En este artículo presentamos algunos ejemplos reales (¡y esperamos que sorprendentes!) de cómo la estadística y la estructura de la aleatoriedad están cada vez más presentes en nuestras vidas.

¿Cómo expandir la capacidad de una red informática, viaria o eléctrica?

La teoría de grafos es una de las áreas que más se ha beneficiado de su relación con la aleatoriedad. Una red es un conjunto de nodos unidos entre sí por conexiones. Y uno de los conceptos fundamentales de toda red es el tráfico que es capaz de admitir entre dos puntos; más concretamente, toda red tiene algún conjunto de conexiones que constituyen su “cuello de botella”, es decir, la capacidad de transmisión entre dos puntos está determinada por el paso más estrecho y con menor capacidad de la red. Así, la identificación de estos cuellos de botella es una tarea básica para aumentar la capacidad de transmisión de datos o de energía dentro de una red, al decirnos en qué punto hemos de invertir en nuevas conexiones. El problema está en que, mientras identificar dichos cuellos de botella en una red pequeña (como nuestras redes de carreteras) es sencillo, el problema crece de forma exponencial conforme la red crece de tamaño y las conexiones se multiplican.

Lo excepcional de la teoría evolutiva es que no necesita que las personas sometidas a ella conozcan sus intricados mecanismos: la selección natural se encarga de que los más aptos ganen la lucha mediante la aplicación de estrategias mixtas

El primer método para encontrar el cuello de botella consistiría en recurrir a la fuerza bruta: considerar todas las posibles particiones del grafo (es decir, todos los posibles cortes de las conexiones que separan en dos partes el grafo) y medir cuál es el corte que menos conexiones necesita eliminar para obtener dos redes incomunicadas: ese será precisamente el cuello de botella. Pero el problema es que un grafo con 300 nodos puede llegar a tener… 2^300 posibles cortes distintos. ¿Y cuán grande es dicha cifra? ¡Quizás para un moderno ordenador, con su gran potencia, este cálculo no sea gran cosa! Pues bien, 2^300 equivale aproximadamente a 2*10^90, es decir, un 2 seguido de 90 ceros. Y el problema está en que… ¡el número estimado de átomos en el universo es de 10^80! Es decir, pueden existir más cortes posibles de conexiones un grafo de 300 nodos que átomos en el universo. Evidentemente, ningún ordenador podría llegar a examinar semejante cantidad de casos, con lo cual el enfoque basado en la fuerza bruta no es factible. ¿Cómo examinar entonces redes como Facebook o la propia Internet, las cuales tienen hoy más de 500 millones de nodos?

David Karger, profesor del MIT, creó a principios de los 90 una sencilla solución basada en la aleatorización: el algoritmo de contracción, por el cual los nodos del grafo se unen aleatoriamente de dos en dos hasta llegar a tener dos únicos nodos. ¿Garantiza este algoritmo aleatorio que encontremos el “cuello de botella” (min-cut)? No, pero lo sorprendente es que la posibilidad de hacerlo es mucho más alta de lo que la intuición nos dice. Así, repitiendo este proceso unas miles de veces y quedándonos con el mejor resultado obtendremos un corte que, con una probabilidad altísima, será el mayor cuello de botella de la red (y, si tuviésemos la mala suerte de no encontrar el mínimo absoluto, al menos nos daría una aproximación razonable).

placeholder

Por extraño que parezca, tendremos más posibilidades de encontrar la solución óptima lanzando monedas al aire que buscándola de forma exhaustiva.

La revolución llega al Póker

Hasta la eclosión del Texas Hold’em, el póker era un juego en el que la estadística jugaba un papel limitado, debido a la falta de información. Cada jugador conocía sus cinco cartas pero no sabía nada sobre la mano de sus oponentes -al menos hasta el descarte, en el que los jugadores renovaban parcialmente su mano-. Así, la ausencia de información común había dibujado un juego en el que la psicología y la lectura de las emociones jugaba un mayor papel. El auge del Texas Hold’em, a principios del nuevo milenio, cambió por completo el panorama. En la nueva “versión popular” del juego los jugadores comparten un 71% de la información sobre su mano -5 de las 7 cartas con las que formarán su mano son públicas y comunes-, frente al 0% que compartían antes.

El resultado es un juego en el que la capacidad de cálculo estadístico y la aplicación constante de la teoría de juegos han sustituido las antiguas “corazonadas” o la lectura de emociones y tipología de juego de los adversarios. La batería de herramientas y conceptos estadísticos que se usan en cada mano de Texas Hold’em es realmente amplio:

-  En primer lugar, el jugador ha de utilizar el cálculo de frecuencias para estimar la probabilidad de “completar” alguna mano concreta. Ejemplo: “Si busco un color -mano con cinco cartas del mismo palo- con 4 corazones en mi mano, necesito uno más. En la baraja quedan 9 corazones de 47 cartas, por lo que 9 cartas me valen y 38 no. Si faltan aún dos cartas por ser reveladas, la probabilidad de conseguir el color es de [1 – (38/47 * 37/46)], es decir, el 35%.”

-  A continuación, el jugador ha de comparar el coste de una apuesta con su “premio esperado”. Por ejemplo: Tengo un 35% de posibilidades de obtener color, con el cual ganaría la mano. Si no lo obtengo, la perderé. En el bote hay 500 fichas apostadas y me piden una apuesta adicional de 100 fichas para seguir en la mano, así que el coste de seguir jugando son 100 fichas. Mi “ganancia esperada” son 500 fichas multiplicado por 35%, es decir, 175 fichas. Como la ganancia esperada (175) es mayor que el coste de ver la apuesta (100), me conviene ver y seguir jugando”.

-  Un problema adicional es que los adversarios tampoco son mancos y pensarán también en términos estadísticos: “Si mi contrincante busca un color y ya tiene cuatro cartas ligadas, su premio esperado son 175 fichas, así que deberé hacer una apuesta mayor de 175 para lograr que se retire y llevarme el bote. Apostaré entonces 250 fichas”.

placeholder

 -  Por otra parte, los jugadores han de incorporar información de forma bayesiana, es decir, adaptar sus estimaciones a la información que van obteniendo de otros jugadores. Ejemplo: “Tengo cuatro cartas y busco un color contra dos adversarios. Pero, ¡diablos!, uno de los dos jugadores se comporta en sus apuestas como si buscara también mi mismo color. ¡Quizás él tenga ya 2 de los 9 corazones que faltan por salir! Si ello fuese así, la probabilidad de obtener un color bajaría del 35% al 21%”.

-  Los faroles: si uno apuesta fuerte sólo cuando tiene muy buenas cartas, los adversarios acabarán por no acudir nunca a tus (esporádicas) apuestas. Para que ello no sea así, es óptimo apostar de vez en cuando con cartas débiles. ¿Cómo decidir cuándo? Si la estrategia óptima es ser absolutamente impredecible… ¡qué mejor que lanzando una moneda al aire! El siguiente apartado se explican las denominadas “estrategias mixtas”, estrategias en las que la aleatorización puede ser la mejor solución.

¿En qué se parecen los penaltis en el fútbol y la teoría de la evolución?

Todo jugador de fútbol tiene un lado bueno a la hora de tirar los penaltis, es decir, un palo hacia el que es capaz de tirarlo más fuerte y con mayor precisión. Este lado bueno depende principalmente de si es diestro o zurdo, pero incluso dentro de cada grupo existen diferencias importantes en la precisión. Imaginen un jugador extremadamente bueno tirando los penaltis hacia su izquierda -es decir, hacia la derecha del portero-. ¿Quiere ello decir que debería tirar todos los penaltis hacia dicho lado? Evidentemente, no; de ser así, los porteros sabrían que siempre los tira hacia su derecha y se lanzarían con decisión hacia dicho poste. Así, incluso los tiradores más precisos saben que de vez en cuando han de tirar el penalti hacia su lado malo para sorprender al portero. Y lo más importante de esta estrategia -que el portero, por supuesto, también seguirá- es que la elección ha de ser completamente impredecible: ahí es donde entra la estadística, ya que la estrategia óptima necesita un proceso de aleatorización combinado de nuevo con un “cálculo de esperanzas” similar al del póker donde el premio es el gol.

Es natural que surja un comentario generalizado a esta teoría: “¡Esto es una estupidez! ¡Ningún jugador de fútbol piensa en estos términos a la hora de tirar un penalti!”. Pero lo excepcional de la teoría evolutiva es que ésta no necesita que las personas o animales sometidas a ella conozcan sus intricados mecanismos: la selección natural se encarga de que los más aptos, por el motivo que sea, ganen la lucha por la supervivencia mediante la aplicación de estrategias mixtas. El concepto “Estrategia evolutiva estable” ha revolucionado el estudio de la lucha por la supervivencia (¡y también por la reproducción!) en animales, y uno de sus aspectos cruciales es que no es necesario que los animales sepan estadística ni aleatorizar sus decisiones: la selección natural hace evolucionar el comportamiento agregado de las especies hasta su mejor equilibrio competitivo.

Y algo similar sucede con los futbolistas: en un influyente estudio (“Professionals play Minimax”), Ignacio Palacios-Huerta observó los patrones de lanzamiento de penaltis en diversas ligas europeas y llegó a la conclusión de que lanzadores y porteros imitaban bastante bien, aunque fuera subconscientemente, la estrategia óptima de aleatorización. Quizás los jugadores no tiren un dado antes de lanzar un penalti, pero la “selección natural” hace que suelan tirar los penaltis aquellos con más éxito, que en general son quienes mejor hacen su elección estratégica.

Ordenando y buscando resultados en bases de datos

Otro de los aspectos vitales de la vida moderna es la ordenación y búsqueda de información. Casi cada tarea que realizamos con nuestro ordenador o nuestro smartphone requiere cientos de miles de búsquedas y ordenaciones de listas de datos. Cada búsqueda en Google devuelve un resultado basado en la búsqueda en cientos de millones de páginas. ¿Cómo es posible que dicho milagro se efectúe en décimas de segundo? El resultado tiene que ver de nuevo, a menudo, con el lanzamiento de una moneda al aire.

Uno de los algoritmos de ordenación de información más utilizados, el Quicksort, ordena los elementos a la izquierda y a la derecha de un determinado elemento, denominado pivote. Pues bien, la mejor forma de elegir qué pivote utilizar para cada lista es ¡lanzando una moneda al aire!

Uno de los algoritmos de ordenación de información más utilizados, el Quicksort, ordena los elementos a la izquierda y a la derecha de un determinado elemento, denominado pivote. Pues bien, la mejor forma de elegir qué pivote utilizar para ordenar cada lista es… ¡lanzando de nuevo una moneda al aire! Es decir, eligiéndolo de forma aleatoria. Cualquier otra elección puede dar lugar a tiempos de ordenación muy elevados y, además, la aleatorización suele reducir la vulnerabilidad de las redes a los ataques informáticos.

Por otra parte, la búsqueda de información en listas ordenadas puede realizarse en un tiempo ínfimo incluso aunque estas listas sean gigantescas (como, por ejemplo, la lista de páginas web y contenidos de todo Internet). Y de nuevo la estadística juega un papel vital en ello. Concretamente, el bloom filter es capaz de consumir un tiempo y un espacio ínfimo a la hora de elementos a cambio de aceptar que es posible obtener resultados erróneos. Conocer la probabilidad de ocurrencia de dichos errores y diseñar las consultas siendo conscientes de que dichos errores pueden producirse es vital a la hora de construir las gigantescas bases de datos que hacen posible numerosas aplicaciones.

En resumen, la estadística es mucho más que una forma de interpretar el mundo que nos rodea. La aleatoriedad es, además de una caja negra en la que metemos lo que no somos capaces de medir e identificar, una fuerza que moldea el mundo que creamos; conocer su estructura y sus propiedades es un asunto cada vez más vital para nuestra vida moderna.

Pocas frases históricas han sido tan malinterpretadas como el clásico de Mark Twain: “Existen tres tipos de mentiras: las mentiras, las malditas mentiras y las estadísticas”. El sentido original de la expresión aludía a lo fácil que puede ser engañar mediante la presentación maliciosa de datos, pero su sentido ha acabado afectando a la propia disciplina de la estadística. Y, paradójicamente, la estadística es la disciplina clave para evitar ser engañados burdamente con números. La frase de Mark Twain debería haber sido: “Existen tres tipos de formas de engañar: con mentiras, con malditas mentiras y con datos. Sólo el saber estadística te salvará de este último tipo de engaño”. La correcta interpretación de los datos y de la evidencia empírica es el principal motor del avance de la ciencia durante el S.XX, hasta el punto de que prácticamente ninguna disciplina científica puede avanzar ya sin su uso.