Las 3 Culturas

Wednesday, October 31, 2018

Las 3 Culturas

Escrito por Carlos Gil Bellosta.

En 2001 se publicó la primera edición del muy influyente The Elements of Statistical Learning. En su prefacio, sus autores, T. Hastie, R. Tibshirani y J. Friedman, daban cuenta de la emergencia de una nueva disciplina, la ciencia de datos (entonces conocida como Data Mining o Machine Learning).













The field of Statistics is constantly challenged by the problems that science and industry brings to its door. In the early days, these problems often came from agricultural and industrial experiments and were relatively small in scope. With the advent of computers and the information age, statistical problems have exploded both in size and complexity. Challenges in the areas of data storage, organization and searching have led to the new field of “data mining”; statistical and computational problems in biology and medicine have created “bioinformatics.” Vast amounts of data are being generated in many fields, and the statistician’s job is to make sense of it all: to extract important patterns and trends, and understand “what the data says.” We call this learning from data.

El título del libro no es para nada inocente: la expresión aprendizaje estadístico es toda una declaración de intenciones. Que no son otras que tender puentes entre las dos disciplinas, la estadística y la ciencia de datos:
This book is our attempt to bring together many of the important new ideas in learning, and explain them in a statistical framework.

El mismo año, 2001, vio también la publicación de un artículo tan influyente como controvertido, Statistical Modeling: The Two Cultures, de Leo Breiman. Breiman identifica también esas dos disciplinas (o culturas), hasta cierto punto contrapuestas; sin embargo, en lugar de ensayar una síntesis de ambas, toma partido decididamente por una de ellas. No en vano, su artículo sigue citándose y utilizándose para marcar distancias entre la estadística clásica y la nueva disciplina emergente (sobre todo por quienes quieren dar a entender que la estadística tradicional es innecesaria para ser un científico de datos).

Breiman describe los problemas del interés de ambas disciplinas como una función desconocida, una caja negra, la naturaleza, que asocia entradas a salidas:


Breiman define la naturaleza como "caja negra".
Figura 1: Breiman define la naturaleza como "caja negra".

La estadística tradicional trata de simular esa caja negra con alguno de los modelos clásicos:


En Estadística tradicional la "caja negra" se simula con modelos clásicos
Figura 2: En Estadística tradicional la "caja negra" se simula con modelos clásicos


Como Hastie y sus coautores reconocen, estos modelos no bastan: gran parte de ellos fueron concebidos como soluciones para determinados problemas muy concretos en ingeniería (agrícola, industrial). Pero estos, pese a su importancia, representan un conjunto muy pequeño dentro del universo de los problemas que se plantea la ciencia de datos. La estadística clásica, simplemente, no sabe qué responder cuando se le plantean ese tipo de problemas (o, peor aún, estira esos métodos hasta extremos indefendibles).

Breiman encuentra en el Machine Learning el modo de superar esa limitación:


Breiman supera la limitación con Machine Learning.
Figura 3: Breiman supera la limitación con Machine Learning.

La idea no es nueva. Los ingenieros saben desde hace muchos años cómo aproximar funciones arbitrarias (p.e., una onda acústica, una canción) por otra que es una suma de senos y cosenos (mediante la descomposición de Fourier) con una precisión arbitraria. Eso sucede porque, como han probado los matemáticos, los senos y cosenos son densos en el universo de ese tipo de funciones. Los árboles de decisión, los bosques aleatorios, las redes neuronales, los boosted trees (XGBoost, etc.) son igualmente densos en el espacio de funciones que plantea la naturaleza y que interesan a los científicos de datos. Si queremos aproximar cualquier función, podemos usarlos y obtener predicciones razonables.

Tal es el programa explícito de Breiman y también, más o menos implícitamente, el de toda una generación de científicos de datos. Sin embargo, este programa se queda igualmente corto en muchas aplicaciones reales. Pensemos, a modo de ejemplo, en el llamado filtro de Kalman, que se usa para mejorar la precisión de la ubicación de un móvil (p.e., un dron) que dispone de un GPS: lo hace corrigiendo estadísticamente la posición que indica el GPS en el momento t con la que se deduciría de su posición en el momento t-1 aplicando las leyes de la dinámica.

Si quisiésemos reemplazar el filtro de Kalman por un sistema basado en, p.e., redes neuronales, estas tendrían que aprender por si mismas las leyes de la dinámica. Lo cual es un derroche manifiesto: las leyes de la dinámica son sobradamente conocidas y pueden modelarse explícitamente. La pregunta que uno puede entonces plantearse es: ¿podemos construir una caja alternativa a las dos que propone Breiman que incluya todo lo que ya sabemos del sistema de interés (y, en particular, las leyes de Newton)?

La respuesta es positiva y hoy en día podemos modelar este tipo de sistemas (y muchos otros) en los que gran parte de lo que la caja negra hace es conocido y esa información previa puede introducirse explícitamente. Solo en algunos casos particulares esos modelos podrían reducirse a los de la estadística clásica, por lo que esta queda de nuevo superada. Y, habida cuenta de todo lo que sabemos sobre la naturaleza, nuestros modelos superarán también a los propuestos por cajas negras puras (por supuesto, siempre que exista información previa del tipo que se describe más arriba).

Esta de la que aquí se da noticia podría considerarse una tercera cultura alternativa a las dos que distingue Breiman y su emergencia en estos años ha venido de la mano de avances teóricos y computaciones muy notables. ¿Has oído hablar de Stan, de Markov Chain Monte Carlo, de expectation propagation, de large scale Bayesian inference, de...? Pues es la tercera cultura que pide paso.


Para mantenerte al día con LUCA visita nuestra página web, y no olvides seguirnos en TwitterLinkedIn YouTube.

No comments:

Post a Comment