La ciencia de datos y la COP25

Desde el comportamiento comercial de individuos a los riesgos de los huracanes, pasando por la genética y las enfermedades, casi todo es reproducible por modelos de aprendizaje automático

Foto: Vista de lago Pamamaroo con escasez de agua, en Australia. (EFE)
Vista de lago Pamamaroo con escasez de agua, en Australia. (EFE)

"Todos los juicios son, en su lógica, estadísticos".

C.R. Rao, 'Estadística y verdad'.

Uno de los aspectos más interesantes de la ciencia de datos es su capacidad de integrar múltiples fuentes de información de dimensiones fuera de la escala de la comprensión humana para detectar patrones de comportamiento. Así, los modelos de 'machine learning' o aprendizaje automático son capaces de entender y reproducir el comportamiento de las personas y ayudarnos en nuestra toma de decisiones diaria. Son decenas los ejemplos que tenemos a nuestra disposición, algunos tan habituales como la elección de la ruta al trabajo gracias a una sencilla 'app' integrada en nuestro 'smartphone'.

En 'Alquimia' (Deusto, 2.019), recogemos muchos otros. Así, empresas de seguros como John Hancock, con más de 150 años de antigüedad, han abandonado el negocio tradicional de suscripción de seguros de vida para centrarse en pólizas interactivas asociadas a dispositivos de monitorización de la actividad, como las pulseras o los teléfonos inteligentes, dado que la experiencia de la compañía señala que los usuarios de ese tipo de pólizas viven entre 13 y 21 años más, de media, que el resto de la población asegurada. El hospital Cedars-Sinai de Los Angeles y la clínica Mayo han demostrado la relación existente entre los pasos caminados y el tiempo de recuperación en cirugías cardiacas mayores; la tecnología inalámbrica de las pulseras de actividad y la ciencia de datos permitieron reducir los tiempos de recuperación de los pacientes, mejorando su calidad de vida significativamente y reduciendo los costes asociados a la hospitalización.

DxtER es un dispositivo desarrollado por Final Frontier Medical Services a raíz de un reto de 10 millones de dólares lanzado en 2012 por Qualcomm, la empresa que desarrolló el famoso microchip Snapdragon para teléfonos móviles. El reto no era sencillo, desde luego: emular el Tricorder de 'Star Trek' y construir un dispositivo capaz de diagnosticar un mínimo de 13 condiciones médicas, así como medir, de forma continua, al menos cinco signos vitales (presión arterial, ritmo cardiaco, saturación de oxígeno, frecuencia respiratoria y temperatura), con una experiencia positiva del usuario. En su versión actual, DxtER es capaz de diagnosticar más de 30 enfermedades y dolencias, y tiene un enorme potencial en zonas con difícil acceso a la atención primaria, como ocurre en los países en vías de desarrollo. La diferencia fundamental en el enfoque del equipo ganador del reto fue el empleo de algoritmos de 'machine learning'.

Desarrollos espectaculares se han dado, asimismo, en el estudio del genoma humano. El Proyecto 1.000 Genomas nació en 2008 con el objetivo de estudiar la variabilidad genética del ser humano a través de la secuencia del genoma de 1.000 personas. Compartimos el 99% de nuestro material genético, y esa minúscula diferencia podría explicar la propensión de algunas personas a ciertas enfermedades. Si el genoma humano contiene 3.000 millones de bases, aquí hablamos de casi cinco terabases, es decir, de 5x10^12 bases (en biología molecular, la base nitrogenada es la que contiene la información genética).

El Proyecto 1.000 Genomas nació en 2008 con el objetivo de estudiar la variabilidad genética del ser humano a través de la secuencia del genoma

El proyecto, ampliado inicialmente hasta los 2.500 genomas, fue mejorado con el análisis de la variabilidad genética de 300 individuos de 142 poblaciones distintas (el original solo contempló 26) en el conocido como Proyecto de Diversidad Genómica de Simons. En este caso, Google desarrolló una plataforma en la nube, Google Genomics, donde reposan los datos de varios proyectos de investigación. Desde el momento en que una buena parte de las enfermedades tienen que ver con aspectos genéticos del paciente, la investigación en esta área se muestra fundamental para avanzar en el diagnóstico, prevención y tratamiento.

Con ese objetivo, nació en 2015 la compañía Deep Genomics, fundada por cuatro investigadores especialistas en biología y 'machine learning'. No hay misterio en lo que pretende: aplicar el 'machine learning' y la inteligencia artificial para detectar y tratar enfermedades. En las dos primeras rondas de financiación, logró 16,7 millones de dólares.

De acuerdo con las estimaciones de la industria, los daños asegurados relacionados con riesgos catastróficos se acercaron a los 72.000 millones de dólares en 2018, por encima de la media de los últimos ocho años, situada en los 65.500 millones de dólares, aunque muy por debajo de los 143.000 millones de 2017, el más costoso de la historia. El impacto de los daños totales en ese año fue superior a los 353.000 millones de dólares. Solo el impacto de los huracanes Harvey, Irma y María ascendió a 222.000 millones de dólares, con unos 80.000 millones asegurados. En tales circunstancias, disponer de un modelo que permita predecir la trayectoria de los huracanes no solo ahorra dinero sino que puede salvar cientos o miles de vidas: solo la temporada de huracanes de 2017 mató a 3.230 personas. El huracán Sandy golpeó Nueva York en 2012, dejando a su paso más de 50 víctimas mortales y alrededor de 19.000 millones de dólares en daños asegurados.

El desafío de los modelos predictivos era, y sigue siendo, enorme, al tener que lidiar con bases de datos inmensas integradas con sistemas de información geográfica. Esas bases de datos incluyen las condiciones atmosféricas (velocidades del viento en tiempo real y anteriores, presión, temperaturas), temperatura del mar, elevación del terreno y cobertura del mismo en términos de vegetación y edificios. Además de gestionar toda esa información, el proceso debe hacerse en tiempo prácticamente real.

El desafío de los modelos predictivos sigue siendo enorme, al tener que lidiar con bases de datos inmensas integradas con información geográfica

Los métodos de la ciencia de datos están cambiando la práctica reaseguradora. KatRisk es una empresa de modelización de catástrofes nacida en 2012 con el objetivo de proporcionar modelos y datos a un precio asumible para sus clientes. Gracias a la ciencia de datos, son capaces de ofrecer soluciones de alta resolución en riesgos asociados al viento y a las inundaciones. Los desarrollos en los sistemas de geolocalización permiten evaluaciones de riesgos con una precisión de 10 metros, generando millones de simulaciones que permiten distinguir edificios y construcciones con la precisión señalada. El sector reasegurador se beneficia directamente de la precisión, adaptando sus tarifas al riesgo cubierto y proporcionando precios más competitivos a sus clientes, las compañías aseguradoras, que, a su vez, los trasladan en mejores condiciones a empresas y particulares.

Desde el comportamiento comercial de los individuos a los riesgos de los huracanes, pasando por la genética y el comportamiento de las enfermedades, prácticamente todo es, hoy en día, reproducible por modelos de aprendizaje automático. Tras mi participación en el 'Informe preliminar general sobre los impactos en España por efecto del cambio climático (ECCE)', de la Oficina Española del Cambio Climático, hace ya 15 años, me he preguntado en multitud de ocasiones acerca de la razón por la que ningún modelo de aprendizaje automático ha sido capaz de reproducir el clima.

Disponemos de los datos y de los medios. Disponemos de los modelos. Y planteamos bien las preguntas. Por ejemplo, desde hace más de 100 años, se observan los huracanes de forma rutinaria; poseemos mediciones de las múltiples variables atmosféricas, marinas y terrestres asociadas, y, pese a ello, no existe un solo modelo capaz de predecir la temporada de huracanes en el Atlántico, algo que reduciría en miles las pérdidas de vidas y en miles de millones los daños por ellos causados.

Sin negar la existencia de un cambio, consustancial al fenómeno, mantengo desde hace años que el problema es estadístico. Hasta la fecha, ningún modelo ha sido capaz de reproducir el clima. Solo si somos capaces de ajustar los modelos podremos enfrentarnos al problema como científicos, no como políticos.

Big Data
Escribe un comentario... Respondiendo al comentario #1
2 comentarios
Por FechaMejor Valorados
Mostrar más comentarios